logo好方法网

中心词提取方法、装置、设备及存储介质


技术摘要:
本申请实施例公开了一种中心词提取方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:调用中心词提取模型,获取目标语句的语句特征及目标语句中的多个词语的词语特征,分别对语句特征及词语特征进行语义提取,得到全局语义特征及局部语义特征,分别对每个  全部
背景技术:
随着计算机技术的发展和搜索引擎的广泛应用,用户对搜索准确率的要求也越来 越高。为了提高搜索准确率,在根据用户输入的语句进行搜索时可以从该语句中提取能准 确表达语句含义的中心词,根据中心词进行搜索,避免根据语句进行搜索而导致搜索结果 较少的问题。 相关技术中,调用中心词提取模型,从预设的多个词语中提取语句的中心词,但是 如果语句的中心词不是中心词提取模型预设的词语,则调用中心词提取模型无法准确提取 出语句的中心词,提取准确率较低。
技术实现要素:
本申请实施例提供了一种中心词提取方法、装置、设备及存储介质,提高了中心词 提取的准确率。所述技术方案如下: 一方面,提供了一种中心词提取方法,所述方法包括: 调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中 的多个词语的词语特征; 调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及 每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的 局部语义特征; 调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特 征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全 局语义特征之间的差异特征; 调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全 局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与所述差异特征呈负相 关关系; 提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词。 另一方面,提供了一种中心词提取装置,所述装置包括: 第一特征获取模块,用于调用中心词提取模型的特征获取层,获取目标语句的语 句特征及所述目标语句中的多个词语的词语特征; 语义特征提取模块,用于调用所述中心词提取模型的语义特征提取层,分别对所 述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语 义特征及所述每个词语的局部语义特征; 差异特征获取模块,用于调用所述中心词提取模型的语义特征匹配层,分别对所 5 CN 111597823 A 说 明 书 2/19 页 述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语 的局部语义特征与所述全局语义特征之间的差异特征; 分值获取模块,用于调用所述中心词提取模型的输出层,根据所述每个词语的局 部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与 所述差异特征呈负相关关系; 中心词提取模块,用于提取多个分值中最大的分值对应的词语,作为所述目标语 句的中心词。 在一种可能实现方式中,所述语义特征提取模块,包括: 局部语义提取单元,用于调用所述语义特征提取层的词语语义提取单元,分别对 所述每个词语的词语特征进行处理,得到所述每个词语的局部语义特征; 全局语义提取单元,用于调用所述语义特征提取层的语义提取单元,对所述目标 语句的语句特征进行处理,得到所述目标语句的全局语义特征。 在另一种可能实现方式中,所述差异特征获取模块,还用于: 调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特 征与所述目标语句的全局语义特征进行相加处理,得到所述每个词语的局部语义特征与所 述目标语句的全局语义特征之间的差异特征;或者, 调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特 征与所述目标语句的全局语义特征进行相减处理,得到所述每个词语的局部语义特征与所 述目标语句的全局语义特征之间的差异特征。 在另一种可能实现方式中,所述装置还包括: 差异特征调整模块,用于调用所述中心词提取模型的每个特征提取网络,对上一 层得到的差异特征进行调整,得到调整后的差异特征; 所述分值获取模块,还用于调用所述输出层,根据最后一个特征提取网络得到的 差异特征,获取所述每个词语的分值。 在另一种可能实现方式中,所述特征获取模块,包括: 词语特征获取单元,用于调用所述中心词提取模型的特征提取层,按照预设映射 关系,查询所述目标语句中的每个词语对应的词语特征,所述预设映射关系包括词语及对 应的词语特征; 语句特征获取单元,用于将所述多个词语的词语特征按照所述多个词语在所述目 标语句中的排列顺序进行组合,得到所述目标语句的语句特征。 在另一种可能实现方式中,所述装置还包括: 分词模块,用于调用所述中心词提取模型的分词层,对所述目标语句进行分词处 理,得到所述目标语句包括的多个词语,所述分词层中包括多个预设词语。 在另一种可能实现方式中,所述装置还包括: 归一化模块,用于对所述多个词语对应的分值进行归一化处理,得到每个分值对 应的概率,以使所述多个词语对应的概率之和为1,所述概率用于表示对应的词语为所述目 标语句的中心词的概率; 所述中心词提取模块,用于提取多个概率中最大的概率对应的词语,作为所述目 标语句的中心词。 6 CN 111597823 A 说 明 书 3/19 页 在另一种可能实现方式中,所述装置还包括: 样本获取模块,用于获取样本语句及所述样本语句中的多个样本词语对应的样本 概率,所述样本概率用于表示对应的样本词语为所述样本语句的中心词的概率; 预测概率获取模块,用于调用中心词提取模型,对所述样本语句进行处理,得到每 个样本词语对应的预测概率; 模型训练模块,用于根据所述每个样本词语对应的样本概率及对应的预测概率, 训练所述中心词提取模型。 在另一种可能实现方式中,所述模型训练模块,用于: 获取所述每个样本词语对应的样本概率与对应的预测概率的对数之间的乘积; 将多个样本词语对应的乘积之和作为所述样本语句对应的损失值; 根据所述损失值,训练所述中心词提取模型。 在另一种可能实现方式中,所述预测概率获取模块,包括: 预测分值获取单元,用于调用所述中心词提取模型,对所述样本语句进行处理,得 到所述每个样本词语对应的预测分值; 预测概率获取单元,用于对所述多个样本词语对应的预测分值进行归一化处理, 得到所述每个样本词语对应的预测概率,以使所述多个样本词语对应的预测概率之和为1。 另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存 储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如所述 中心词提取方法中所执行的操作。 另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有 至少一条指令,所述至少一条指令由处理器加载并执行,以实现如所述中心词提取方法中 所执行的操作。 本申请实施例提供的方法、装置、设备及存储介质,调用中心词提取模型的特征获 取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征,调用语义特征提取 层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全 局语义特征及每个词语的局部语义特征,全局语义特征可以准确反映目标语句的含义,局 部语义特征可以准确反映对应的词语的含义,调用语义特征匹配层,分别对每个词语的局 部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语 义特征之间的差异特征,该差异特征可以反映每个词语的局部语义特征与全局语义特征之 间的匹配度,调用输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征, 获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词,根 据分值的大小确定中心词,可以准确地提取语义特征以确定中心词,不限于从预设的多个 词语中提取语句的中心词,提高了提取中心词的准确率。 并且,本申请实施例提供的方法,可以准确识别语句中的近义词、歧义词以及品牌 词等词语,准确理解语句及语句的多个词语的含义,提高了中心词提取的准确率。 并且,本申请实施例提供的方法,由于分词层中的多个预设词语及特征获取层中 的预设映射关系中的词语可以在任意时间进行修改,则中心词提取模型中可以准确获取任 意词语的词语特征,从而该中心词提取模型可以准确提取目标语句中的中心词,提高了中 心词提取的扩展性。并且,由于网络结构的特点,改进的残差神经网络可以快速对词语特征 7 CN 111597823 A 说 明 书 4/19 页 或语句特征进行处理,提高了中心词提取的效率。 并且,本申请实施例提供的方法,在语义特征匹配层之后,设置有多个特征提取网 络,该多个特征提取网络可以对差异特征进行进一步的语义提取,实现了语义特征的多层 次的提取,提高了获取的语义特征的准确率,从而提高了差异特征的准确率,进一步提高了 中心词的提取准确率。 并且,本申请实施例提供的方法,获取样本语句及样本语句中的多个样本词语对 应的样本概率,调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测 概率,根据每个样本词语对应的样本概率及对应的预测概率,训练中心词提取模型。本申请 实施例提供了一种中心词提取模型的训练方式,该方法根据预测概率和样本概率训练中心 词提取模型,提高了中心词提取模型的准确率。并且,在训练中心词提取模型的过程中,设 置样本语句中的多个样本词语的样本概率,不需要考虑选取哪一个词语为负样本,避免了 对负样本的选择问题,降低了模型训练的难度。 附图说明 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。 图1是本申请实施例提供的一种中心词提取方法的流程图; 图2是本申请实施例提供的另一种中心词提取方法的流程图; 图3是本申请实施例提供的一种语义特征提取层和语义特征匹配层的示意图; 图4是本申请实施例提供的一种中心词提取模型的示意图; 图5是本申请实施例提供的一种模型训练方法的流程图; 图6是本申请实施例提供的一种中心词提取装置的结构示意图; 图7是本申请实施例提供的另一种中心词提取装置的结构示意图; 图8是本申请实施例提供的一种终端的结构示意图; 图9是本申请实施例提供的一种服务器的结构示意图。
下载此资料需消耗2积分,
分享到:
收藏