用于训练多语言语音识别网络的方法和系统以及用于执行多语言语音识别的语音识别系统-好方法网

技术摘要：
一种用于训练多语言语音识别网络的方法包括：提供与预定语言相对应的话语数据集；在话语数据集中插入语言标识(ID)标签，其中，话语数据集中的每一个由语言ID标签中的每一个来加标签；将加标签的话语数据集级联；从话语数据集生成初始网络参数；根据预定序列选择初始网全部
背景技术：
端到端自动语音识别(ASR)最近通过达到传统混合ASR系统获得的最先进性能，同时在易于开发性方面也超过了它们，从而证明了其有效性。传统ASR系统需要诸如发音词典和单词分段之类的语言依存资源，这些资源被并入以音素作为中间表示的模型中。这些资源是手工开发的，因此存在两个缺点：首先，它们可能易于出错，或者在其它方面是次优的；其次，它们极大地增加了开发ASR系统(特别是针对新语言)所需的工作量。因此，语言依存资源的使用使得多语言识别系统的开发尤其复杂。相反，端到端ASR系统在没有诸如音素或单词之类的表示语音/语言结构的任何明确中间表示的情况下，将输入语音特征序列直接转换为输出标签序列(在本发明的实施方式中，主要是由n-gram字符组成的字符或标识的序列)。它们的主要优点在于避免了对手工制作的语言依存资源的需求。关于多语言/语言独立ASR已有一些在先研究。在基于深度神经网络(DNN)的多语言系统的上下文中，使用DNN计算语言独立瓶颈特征。因此，有必要准备语言依存的后端系统，例如发音词典和语言模型。另外，有必要预测说出的语言以将语言独立模块和语言依存模块级联。
技术实现要素：
在本发明中，公开了一种具有语言独立神经网络架构的系统和方法，该系统和方法能够在多种不同语言中联合地识别语音并标识语言。例如，本发明使我们能够自动识别英语、日语、汉语普通话、德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语和俄语的话语，并联合标识每句话语的语言。根据本发明的实施方式，网络跨语言共享包括softmax层的所有参数。例如，由于网络通过级联多种语言的字素集来共享包括softmax层的所有参数，因此本发明的语言独立神经网络架构能够在诸如英语、日语、汉语普通话、德语、西班牙语、法语、意大利语、荷兰语、葡萄牙语、俄语等的不同语言中联合地识别语音并且标识语言。本发明的语言独立神经网络能够通过以下步骤进行多语言端到端语音识别：(1) 制作作为来自多种语言的字素集和语言ID的并集的通用标签集，并基于此构建初始网络， (2)将语言ID标签插入到多个不同语言语料库的每句话语的转录中，(3)通过从多个不同语言语料库中选择一句或多句话语并将它们以任意顺序级联来生成话语，其中，相应的转录也以相同的顺序级联，(4)用生成的话语和转录来训练初始网络，以及(5)用经训练的网络识别语音。这种用于多语言语音识别的整体式端到端ASR系统具有3个优点：首先，整体式架 4 CN 111557029 A 说　明　书 2/18 页构去除了语言依存ASR模块和外部语言标识模块；其次，端到端架构使得无需准备手工制作的发音词典；以及第三，共享网络，使得即使对于资源匮乏的语言，也能够学习更好的特征表示。因为训练数据被增广为包括语言切换，所以本发明还使得即使在语音信号中存在语言切换，端到端ASR系统也可以正确地工作。根据本发明的一些实施方式，一种用于训练多语言语音识别网络的方法包括：提供与预定语言相对应的话语数据集；在话语数据集中插入语言标识(ID)标签，其中，话语数据集中的每一个由语言ID标签中的每一个来加标签；将加标签的话语数据集级联；从话语数据集生成初始网络参数；以及用一系列的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络，直到训练结果达到阈值。此外，根据本发明的实施方式，一种用于执行多语言语音识别的语音识别系统包括：接收讲话声音的接口；一个或更多个处理器；以及一个或更多个储存装置，该一个或更多个储存装置存储通过由用于训练多语言语音识别网络的方法所获得的经训练的网络参数已经训练的端到端语音识别网络模块，其中，端到端语音网络识别模块包括指令，当执行该指令时使一个或更多个处理器执行包括以下操作：使用声学特征提取模块，从由讲话声音转换的音频波形数据中提取声学特征序列；使用具有编码器网络参数的编码器网络将声学特征序列编码为隐藏向量序列；通过将隐藏向量序列馈送到具有解码器网络参数的解码器网络来预测第一输出标签序列概率；由联接主义时序分类(CTC)模块使用CTC网络参数和来自编码器网络的隐藏向量序列，预测第二输出标签序列概率；以及使用标签序列搜索模块，通过组合从解码器网络和CTC模块提供的第一输出标签序列概率和第二输出标签序列概率，搜索具有最高序列概率的输出标签序列。更进一步地，根据本发明的实施方式，一种用于生成用于多语言语音识别的经训练的网络参数的多语言语音识别系统包括：一个或更多个处理器；以及一个或更多个储存装置，该一个或更多个储存装置存储参数和包括一个或更多个处理器能执行的指令的程序模块，当执行指令时使得一个或更多个处理器执行包括以下操作：提供与预定语言相对应的话语数据集；在话语数据集中插入语言标识(ID)标签，其中，话语数据集中的每一个由语言ID标签中的每一个来加标签；将加标签的话语数据集级联；从话语数据集生成初始网络参数；以及根据预定序列选择初始网络参数；以及用一系列所选择的初始网络参数和级联的加标签的话语数据集迭代地训练端到端网络，直到训练结果达到阈值。将参照附图进一步解释当前公开的实施方式。所示出的附图不一定按比例绘制，而是通常将重点放在示例当前公开的实施方式的原理上。附图说明 [图1] 图1是例示了根据本发明的实施方式的用于多语言语音识别的方法的框图。 [图2] 图2是例示了根据本发明的实施方式的使用多语言端到端网络的语音识别模块的框图。 [图3] 5 CN 111557029 A 说　明　书 3/18 页图3是例示了根据本发明的实施方式的多语言语音识别模块中的神经网络的示意图。 [图4] 图4是例示了根据本发明的实施方式的多语言语音识别系统的框图。 [图5] 图5是例示了根据本发明的实施方式的多语言语音识别模块中的神经网络的示意图。 [图6] 图6是根据本发明的实施方式的训练多语言语音识别模块的数据准备过程。 [图7] 图7是根据本发明的实施方式的、根据多语言语音识别的指示作为话语中的语言数量的函数的字符错误率的评估结果。 [图8] 图8例示出了根据本发明的实施方式的多语言语音识别的示例输出。

相关推荐