logo好方法网

神经网络模型的蒸馏方法和装置


技术摘要:
本申请涉及人工智能领域,公开了神经网络模型的蒸馏方法和装置。该方法包括:构建蒸馏策略的搜索空间;通过执行多次迭代操作对第二神经网络模型进行蒸馏训练,迭代操作包括:采用预设的控制器从蒸馏策略的搜索空间中搜索出候选蒸馏策略,基于候选蒸馏策略,将预设的至  全部
背景技术:
随着人工智能技术和数据存储技术的发展,深度神经网络在许多领域的任务中取 得了重要的成果。通常,深度神经网络模型的结构较复杂,参数众多,深度神经网络模型的 运行耗时较长。模型的压缩可以实现加速,例如通过量化模型的参数来减少运算量。 模型蒸馏是在小模型(结构较简单的模型)训练过程中利用大模型(结构较复杂的 模型)来监督小模型的输出,从而提升小模型的精度。由于小模型结构简单,且蒸馏训练后 能够达到比较好的性能,所以模型蒸馏能够有效地实现模型的压缩。目前的模型蒸馏方法 是随机地选择一些比较成熟的大模型来蒸馏人工设计的小模型。充分地利用大模型的信息 来蒸馏小模型有助于提升小模型的性能。
技术实现要素:
本公开的实施例提供了神经网络模型的蒸馏方法和装置、电子设备以及计算机可 读存储介质。 根据第一方面,提供了一种神经网络模型的蒸馏方法,包括:构建蒸馏策略的搜索 空间,蒸馏策略包括基于至少一个预设的第一神经网络模型蒸馏训练第二神经网络模型所 采用的蒸馏损失函数;通过执行多次迭代操作对第二神经网络模型进行蒸馏训练,迭代操 作包括:采用预设的控制器从蒸馏策略的搜索空间中搜索出候选蒸馏策略,基于候选蒸馏 策略,将预设的至少一个第一神经网络模型作为教师网络对第二神经网络模型进行蒸馏训 练;获取基于候选蒸馏策略蒸馏后的第二神经网络模型的性能,并根据蒸馏后的第二神经 网络模型的性能生成反馈信息;根据反馈信息更新控制器;响应于根据反馈信息确定当前 的迭代操作未达到预设的收敛条件,基于更新后的控制器执行下一次迭代操作。 根据第二方面,提供了一种神经网络模型的蒸馏装置,包括:构建单元,被配置为 构建蒸馏策略的搜索空间,蒸馏策略包括基于至少一个预设的第一神经网络模型蒸馏训练 第二神经网络模型所采用的蒸馏损失函数;训练单元,被配置为通过执行多次迭代操作对 第二神经网络模型进行蒸馏训练;训练单元包括:搜索单元,被配置为执行迭代操作中的如 下步骤:采用预设的控制器从蒸馏策略的搜索空间中搜索出候选蒸馏策略,基于候选蒸馏 策略,将预设的至少一个第一神经网络模型作为教师网络对第二神经网络模型进行蒸馏训 练;生成单元,被配置为执行迭代操作中的如下步骤:获取基于候选蒸馏策略蒸馏后的第二 神经网络模型的性能,并根据蒸馏后的第二神经网络模型的性能生成反馈信息;更新单元, 被配置为执行迭代操作中的如下步骤:根据反馈信息更新控制器;反馈单元,被配置为执行 迭代操作中的如下步骤:响应于根据反馈信息确定当前的迭代操作未达到预设的收敛条 件,基于更新后的控制器执行下一次迭代操作。 4 CN 111582479 A 说 明 书 2/9 页 根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处 理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少 一个处理器执行,以使至少一个处理器能够执行第一方面提供的神经网络模型的蒸馏方 法。 根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其 中,计算机指令用于使计算机执行第一方面提供的神经网络模型的蒸馏方法。 根据本申请的方法实现了最优蒸馏策略的自动搜索,能够搜索出最优的蒸馏策 略,从而充分地利用大模型的信息来蒸馏小模型,提升小模型的性能。 应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特 征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。 附图说明 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它 特征、目的和优点将会变得更明显: 图1是本公开的神经网络模型的蒸馏方法的一个实施例的流程图; 图2是本公开的神经网络模型的蒸馏方法的另一个实施例的流程图; 图3是本公开的神经网络模型的蒸馏装置的一个实施例的结构示意图; 图4是用来实现本公开的实施例的神经网络模型的蒸馏方法的电子设备的框图。
下载此资料需消耗2积分,
分享到:
收藏