logo好方法网

一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统


技术摘要:
本发明公开了一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统,属于非自回归机器翻译领域。本发明中,首先建立基于Transformer的机器翻译模型,将所述Transformer模型解码器中的多头自注意力机制替换为causal‑k自注意力机制,获得TCL‑NAT模型  全部
背景技术:
近年来,神经机器翻译(NMT)快速发展。通常,NMT采取编码器-解码器框架,目前解 码器生成目标语句的主流方法为自回归方法,自回归方法的特点是当前单词的生成依赖于 于之前单词的预测结果和来自编码器的源上下文。虽然采用自回归方式的NMT的精确性达 到了人类的水平,但由于自回归方式必须逐词翻译,即在推理过程中,后面的单词一定要等 前面所有单词都推理出来才能进行推理,在句子较长时,这种方法也伴随有较高的推理延 迟。因此,非自回归翻译(NAT)提出了并行生成目标单词的方法,可以大大加快推理过程。 对于非自回归方法,每个单词的预测不再参照于前面的单词,因此NAT的准确性低 于自回归翻译(AT),采用传统的NAT训练方法较难训练,且最终得到的NAT模型翻译准确率 较低。目前已有研究表明,并行度较小的任务(即并行生成单词数量较少的任务)训练得到 的模型准确性较高。因此,如果可以将模型从AT转移到NAT,就可以有效提高NAT模型的准确 性。 由于AT和NAT是两个相差甚远的任务,因此在AT训练后直接转移到NAT训练是不可 行的,需要探究一种将模型训练从AT平稳转移到NAT的训练方法,提升最终的模型准确性。
技术实现要素:
为了解决现有的非自回归机器翻译模型准确率较低的问题,本发明从模型的训练 方法着手,提出了一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训 练系统,本发明采用任务层面的课程式学习方法,将模型从AT逐步转移到NAT。 课程式学习指模仿人类从易到难的学习过程,将训练实例按照从简单到困难的顺 序提供给模型,本发明采用的任务层面的课程式学习指的是将翻译任务从较容易的训练任 务(AT),转移到中间任务,即半自回归翻译(SAT),再转移到较困难的训练任务(NAT)。 为了实现上述目的,本发明采用如下技术方案: 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法,所述方法包 括: 步骤1:建立机器翻译模型,包括编码器和解码器,所述的编码器采用Transformer  模型中的编码器,所述的解码器通过将Transformer模型中的解码器中多头自注意力机制 替换为causal-k自注意力机制得到,所述的causal-k自注意力机制通过参数k来调整每次 迭代并行产生的单词数量; 步骤2:获取源语句训练集,所述的源语句训练集标注有参考翻译结果语句; 步骤3:将训练过程预先划分为三个阶段:当k=1时,为AT训练阶段;当1
下载此资料需消耗2积分,
分享到:
收藏