语句识别方法和装置、存储介质及电子设备-好方法网

技术摘要：
本发明公开了一种语句识别方法和装置、存储介质及电子设备。其中，该方法包括：获取待识别的语句数据，将语句数据执行分词操作，得到词表数据，将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果，上述语言模型是使用未标注的样全部
背景技术：
在当前进行语句识别的过程中，存在多种不同的语句数据来源，例如公众号文章、外链文章、新闻、视频、网页、小程序、用户搜索等，上述数据被综合运用到相关的产品中。其中，对于上述数据中的部分语句信息需要根据实际需求进行进一步的过滤，相关技术中对不同来源的语句数据进行检测和过滤是通过大量的标注数据作为训练样本进行有监督的语言模型训练，同时生成的语言模型大多只适用于标注样本所在的语句领域(例如文章标题)，当同一语言模型迁移到其他语句领域(即数据来源)时，会由于不同领域间的数据分布差异导致语言模型迁移效果很差，同时，面对众多的领域，分别标注大量的数据也是费时费力的。针对上述的问题，目前尚未提出有效的解决方案。
技术实现要素：
本发明实施例提供了一种语句识别方法和装置、存储介质及电子设备，以至少解决相关技术中存在的不同领域间的语句识别训练模型迁移效果较差，难以有效完成对目标语句识别的技术问题。根据本发明实施例的一个方面，提供了一种语句识别方法，包括：获取待识别的第一语句，其中，所述第一语句是第一类型的语句；将所述第一语句执行分词操作，得到目标词表；将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果，其中，所述目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型，所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句，所述第一样本语句集合中的语句未被标注是否为异常状态的语句，所述第二样本语句集合中的语句已被标注是否为异常状态的语句，所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率，所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率，所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源，所述识别结果用于表示所述第一语句是否为所述异常状态的语句。可选地，在所述将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果之后，所述方法还包括：在所述识别结果表示所述第一语句为所述异常状态的语句的情况下，执行以下至少之一操作：将所述第一语句中属于所述异常状态的词语进行屏蔽；将所述第一语句中属于所述异常状态的词语替换为目标符号；将所述第一语句从目标数据库中删除，其中，所述目标数据库用于记录所述第一类型的媒体 6 CN 111597306 A 说　明　书 2/21 页资源的语句；和/或在所述识别结果表示所述第一语句不为所述异常状态的语句的情况下，将所述第一语句传输给目标应用。可选地，在所述将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果之前，所述方法还包括：对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第一样本词表，并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第二样本词表；确定所述第二样本词表对应的目标映射序列，其中，所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名，所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度；根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率；使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练，得到训练后的语言模型；根据所述训练后的语言模型确定所述目标语言模型。可选地，所述确定所述第二样本词表对应的目标映射序列，包括：对所述第二样本词表中的词进行互信息计算，得到所述第二样本词表中的每个词的所述贡献度参数；按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序，得到所述第二样本词表中的每个词的排名；将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员，得到所述目标映射序列。可选地，所述根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率，包括：确定所述第一样本词表和所述第二样本词表都包括的第一组词；将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名，并将所述第一样本词表中的第二组词的排名设置为目标值，所述目标值大于所述目标映射序列中的最大排名，所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词；根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。可选地，所述根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率，包括：通过如下公式确定所述第一样本词表中的每个词的所述概率： Probi＝n/(Si 1)，其中，Probi表示所述第一样本词表中的第i个词的所述概率、n为预设的遮蔽概率系数、Si表示所述第一样本词表中的第i个词的排名。可选地，所述使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练，得到训练后的语言模型，包括：根据所述第一样本词表中的每个词的所述概率，确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号；在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下，将所述第一词替换为所述目标词，并使用所述目标词对所述待训练语言模型进行训练；在确定出所述第一样本词表中的第二词不被替换的情况下，使用所述第二词对所述待训练语言模型进行训练；在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下，将所述第三词替换为所述目标遮蔽符号，并使用所述目标遮蔽符号对所述待训练语言模型进行训练。可选地，所述根据所述训练后的语言模型确定所述目标语言模型，包括：将所述训 7 CN 111597306 A 说　明　书 3/21 页练后的语言模型确定为所述目标语言模型。可选地，所述根据所述训练后的语言模型确定所述目标语言模型，包括：使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理，得到第一语言模型；使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理，得到目标语言模型，其中，所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度，所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。根据本发明实施例的一个方面，提供了一种语言模型的训练方法，包括：获取未标注的第一样本语句集合和已标注的第二样本语句集合，其中，所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句，所述第一样本语句集合中的语句未被标注是否为异常状态的语句，所述第二样本语句集合中的语句已被标注是否为异常状态的语句，所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被遮蔽的概率，所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率，所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源；使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练，得到训练后的语言模型；根据所述训练后的语言模型确定所述目标语言模型。可选地，所述使用所述未标注的第一样本语句集合和所述已标注的第二样本语句集合对待训练语言模型进行训练，得到训练后的语言模型，包括：对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第一样本词表，并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第二样本词表；确定所述第二样本词表对应的目标映射序列，其中，所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名，所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度；根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率；使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练，得到所述训练后的语言模型。可选地，所述确定所述第二样本词表对应的目标映射序列，包括：对所述第二样本词表中的词进行互信息计算，得到所述第二样本词表中的每个词的所述贡献度参数；按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序，得到所述第二样本词表中的每个词的排名；将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中 8 CN 111597306 A 说　明　书 4/21 页的一个成员，得到所述目标映射序列。可选地，所述根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率，包括：确定所述第一样本词表和所述第二样本词表都包括的第一组词；将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名，并将所述第一样本词表中的第二组词的排名设置为目标值，所述目标值大于所述目标映射序列中的最大排名，所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词；根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。可选地，所述使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练，得到训练后的语言模型，包括：根据所述第一样本词表中的每个词的所述概率，确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号；在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下，将所述第一词替换为所述目标词，并使用所述目标词对所述待训练语言模型进行训练；在确定出所述第一样本词表中的第二词不被替换的情况下，使用所述第二词对所述待训练语言模型进行训练；在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下，将所述第三词替换为所述目标遮蔽符号，并使用所述目标遮蔽符号对所述待训练语言模型进行训练。可选地，所述根据所述训练后的语言模型确定所述目标语言模型，包括：将所述训练后的语言模型确定为所述目标语言模型；或者使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理，得到第一语言模型；使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理，得到目标语言模型，其中，所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度，所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。根据本发明实施例的另一方面，还提供了一种语句识别装置，包括：获取模块，用于获取待识别的第一语句，其中，所述第一语句是第一类型的语句；分词模块，用于将所述第一语句执行分词操作，得到目标词表；处理模块，用于将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果，其中，所述目标语言模型是使用未标注的第一样本语句集合和已标注的第二样本语句集合对待训练语言模型进行训练得到的模型，所述第一样本语句集合和所述第二样本语句集合均包括所述第一类型的语句和第二类型的语句，所述第一样本语句集合中的语句未被标注是否为异常状态的语句，所述第二样本语句集合中的语句已被标注是否为异常状态的语句，所述第二样本语句集合用于确定所述第一样本语句集合中的语句中的词在对所述待训练语言模型进行训练时的被 9 CN 111597306 A 说　明　书 5/21 页遮蔽的概率，所述被遮蔽的概率包括在对所述待训练语言模型进行训练时将所述第一样本语句集合中的语句中的词替换为目标词和/或目标遮蔽符号的概率，所述第一样本语句集合中的语句和所述第二样本语句集合中的语句来自不同的数据源，所述识别结果用于表示所述第一语句是否为所述异常状态的语句。可选地，所述装置还用于：在所述将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果之后，在所述识别结果表示所述第一语句为所述异常状态的语句的情况下，执行以下至少之一操作：将所述第一语句中属于所述异常状态的词语进行屏蔽；将所述第一语句中属于所述异常状态的词语替换为目标符号；将所述第一语句从目标数据库中删除，其中，所述目标数据库用于记录所述第一类型的媒体资源的语句；和/或在所述识别结果表示所述第一语句不为所述异常状态的语句的情况下，将所述第一语句传输给目标应用。可选地，所述装置还用于：在所述将所述目标词表输入到目标语言模型，得到所述目标语言模型输出的所述第一语句的识别结果之前，对所述第一样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第一样本词表，并对所述第二样本语句集合中包括的所述第一类型的语句和所述第二类型的语句进行合并和分词操作，得到第二样本词表；确定所述第二样本词表对应的目标映射序列，其中，所述目标映射序列中的每个成员用于表示所述第二样本词表中的一个词以及所述一个词的贡献度参数的排名，所述一个词的贡献度参数用于表示所述一个词对被标注为所述异常状态的语句的贡献度；根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率；使用所述第一样本词表以及所述第一样本词表中的每个词的所述概率对所述待训练语言模型进行训练，得到训练后的语言模型；根据所述训练后的语言模型确定所述目标语言模型。可选地，所述装置用于通过如下方式确定所述第二样本词表对应的目标映射序列：对所述第二样本词表中的词进行互信息计算，得到所述第二样本词表中的每个词的所述贡献度参数；按照所述贡献度参数的取值从大到小对所述第二样本词表中的词进行排序，得到所述第二样本词表中的每个词的排名；将所述第二样本词表中的每个词和所述每个词的排名组成所述目标映射序列中的一个成员，得到所述目标映射序列。可选地，所述装置用于通过如下方式根据所述目标映射序列确定所述第一样本词表中的每个词在对所述待训练语言模型进行训练时的被遮蔽的概率：确定所述第一样本词表和所述第二样本词表都包括的第一组词；将所述第一样本词表中的所述第一组词的排名设置为等于所述第一组词在所述目标映射序列中的排名，并将所述第一样本词表中的第二组词的排名设置为目标值，所述目标值大于所述目标映射序列中的最大排名，所述第二组词为所述第一样本词表中的不包括在所述第二样本词表中的词；根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率。可选地，所述装置用于通过如下方式根据所述第一样本词表中的每个词的排名确定所述第一样本词表中的每个词的所述概率：通过如下公式确定所述第一样本词表中的每个词的所述概率：Probi＝n/(Si 1)，其中，Probi表示所述第一样本词表中的第i个词的所述概率、n为预设的遮蔽概率系数、Si表示所述第一样本词表中的第i个词的排名。可选地，所述处理模块，包括：确定单元，用于根据所述第一样本词表中的每个词 10 CN 111597306 A 说　明　书 6/21 页的所述概率，确定所述第一样本词表中的每个词需要被替换为目标词、还是不被替换、还是需要被替换为目标遮蔽符号；第一处理单元，用于在确定出所述第一样本词表中的第一词需要被替换为所述目标词的情况下，将所述第一词替换为所述目标词，并使用所述目标词对所述待训练语言模型进行训练；第二处理单元，用于在确定出所述第一样本词表中的第二词不被替换的情况下，使用所述第二词对所述待训练语言模型进行训练；第三处理单元，用于在确定出所述第一样本词表中的第三词需要被替换为所述目标遮蔽符号的情况下，将所述第三词替换为所述目标遮蔽符号，并使用所述目标遮蔽符号对所述待训练语言模型进行训练。可选地，所述装置用于通过如下方式根据所述训练后的语言模型确定所述目标语言模型：将所述训练后的语言模型确定为所述目标语言模型。可选地，所述装置用于通过如下方式根据所述训练后的语言模型确定所述目标语言模型：使用所述第二样本语句集合中包括的所述第一类型的语句对所述训练后的语言模型进行优化处理，得到第一语言模型；使用所述第二样本语句集合中包括的所述第二类型的语句对所述第一语言模型进行优化处理，得到目标语言模型，其中，所述目标语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度，所述第一语言模型与所述第二样本语句集合中包括的所述第一类型的适配度大于所述训练后的语言模型与所述第二样本语句集合中包括的所述第一类型的适配度。根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语句识别方法。根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的语句识别方法。在本发明实施例中，采用获取待识别的语句数据，将语句数据执行分词操作，得到词表数据，将得到的词表数据输入到训练好语言模型得到用于表示语句数据中是否包含异常数据的识别结果，上述语言模型是使用未标注的样本语句集合和已标注的样本语句集合对待训练语言模型进行训练得到的模型，样本语句集合中包括第一样本语句集合和第二样本语句集合，第一样本语句集合中的语句和第二样本语句集合中的语句来自不同的数据源的方式，通过针对不同数据源的语句数据对语言模型进行训练，达到了不同领域间的语言模型能够实现迁移的目的，从而实现了提高语句识别效率，降低语句识别成本的技术效果，进而解决了相关技术中存在的不同领域间的语句识别训练模型迁移效果较差，难以有效完成对目标语句识别的技术问题。附图说明此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图1是根据本发明实施例的一种可选的语句识别方法的应用环境的示意图；图2是根据本发明实施例的一种可选的语句识别方法的流程示意图； 11 CN 111597306 A 说　明　书 7/21 页图3是根据本发明实施例的另一种可选的语句识别方法的流程示意图；图4是根据本发明实施例的又一种可选的语句识别方法的流程示意图；图5是根据本发明实施例的一种可选的语句识别方法的示意图；图6是根据本发明实施例的另一种可选的语句识别方法的示意图；图7是根据本发明实施例的又一种可选的语句识别方法的流程示意图；图8是根据本发明实施例的一种可选的语言模型的训练方法的流程示意图；图9是根据本发明实施例的一种可选的语句识别装置的结构示意图；图10是根据本发明实施例的另一种可选的语句识别装置的结构示意图；图11是根据本发明实施例的一种可选的电子设备的结构示意图。

相关推荐