logo好方法网

使用教师退火来训练机器学习模型


技术摘要:
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于使用教师退火来训练机器学习模型。
背景技术:
机器学习模型接收输入并且基于接收到的输入和基于模型的参数  值来生成输 出,例如,预测输出。 神经网络是采用一个或多个层的非线性单元来针对接收到的输入  预测输出的机 器学习模型。一些神经网络除了包括输出层之外还包括  一个或多个隐藏层。每一个隐藏层 的输出被用作网络中的下一层的输  入,所述下一层即下一隐藏层或输出层。网络的每个层 根据相应参数 集的当前值根据接收到的输入生成输出。
技术实现要素:
本说明书广泛地描述一种系统,该系统被实现为一个或多个位置  或多个位置中 的一个或多个计算机上的一个或多个计算机程序,该计  算机程序使用教师退火 (annealing)来训练机器学习模型。 正在被训练的机器学习模型在本说明书中将称为“学生机器学习  模型”,并且学 生机器学习模型的参数,即,通过训练而更新的参数,  将被称为“学生参数”。 特别地,在训练期间,系统使用真值输出和通过一个或多个已训  练的教师机器学 习模型生成的教师输出两者。通过执行教师退火,系  统在训练期间重复调整权重值,该权 重值定义在计算用于训练的目标 函数中时使用的在教师输出和真值输出之间的权重。 可以实现在本说明书中描述的主题的特定实施例以实现以下优点 中的一个或多 个。 本说明书描述当通过已经训练的教师模型生成的输出可用时使用  教师退火来改 善对学生机器学习模型的训练。通过在训练的早期使用  教师退火,学生模型主要提炼,即, 主要从教师模型的输出中学习, 以尽可能得到有用的训练信号。在训练即将结束时,学生 模型主要依  赖于真值输出。这种进展允许学生机器学习模型在任何给定任务上实  现超出 用于该任务的教师机器学习模型的性能,即使学生机器学习模  型是多任务机器学习模型 而教师模型是特定于该任务的单任务机器学  习模型。特别地,使用这些技术,在没有对被 用于训练老师的任何更  多的训练数据进行训练的情况下学生模型可能会超出老师的性 能。此  外,在多任务设置中,所描述的技术允许学生机器学习模型一次跨越  多个任务实现 鲁棒的多任务增益,即,相对于针对那些任务的常规训 练技术而言。 另外,如在本说明书中所述通过在训练期间利用教师模型,即使  当学生模型比教 师模型消耗少的计算资源以生成输出时,学生模型也  可以被训练以与教师模型同等好甚 至更好地执行。例如,在教师模型  和学生模型都是单任务模型的情况下,学生模型可以比 教师模型具有  更少的参数,或者以比教师模型所需的迭代更少的迭代生成学生输出。  作 为特定示例,学生模型和教师模型可以具有相似的架构,但是学生  模型具有较少的神经网 5 CN 111598253 A 说 明 书 2/9 页 络层,并且因此具有较少的参数。作为另一个  特定示例,教师模型可以是通过多次迭代生 成输出的自动回归模型,  而学生模型是通过学生模型单次向前传递生成学生输出的前馈 模型。  作为另一示例,当教师模型是单任务模型而学生模型是多任务模型时,  例如,由于 具有在所有多任务之间共享的某些参数,学生模型可以具  有比教师模型中的参数组合总 数少得多的参数。 在下面的附图和描述中阐述本说明书中描述的主题的一个或多个  实施例的细 节。根据说明书、附图和权利要求书,主题的其它特征、 方面和优点将变得显而易见。 附图说明 图1示出示例机器学习模型训练系统。 图2是用于训练学生机器学习模型的示例过程的流程图。 图3是用于使用当前权重值确定对学生参数的更新的另一示例过 程的流程图。 在各个附图中的相似的附图标记和标号指示相似的元件。
下载此资料需消耗2积分,
分享到:
收藏