logo好方法网

基于wideanddeep网络的FAQ匹配方法、装置、设备和存储介质


技术摘要:
本发明公开了一种基于wide and deep网络的FAQ匹配方法、装置、设备及存储介质,方法包括:分别获取目标问题及候选问题的文本表征,并分别将目标问题以及候选问题的文本表征映射成目标问题的第一映射向量以及候选问题的第二映射向量;计算第一映射向量以及第二映射向量  全部
背景技术:
FAQ匹配任务是指给定一组常用问答对,对于给出的问题,寻找是否有与目标问题 相匹配的问答对中的问题,若存在这样的候选问题,将其对应的回答作为新问题的回答。目 前解决FAQ匹配问题最常见的方法就是构建孪生网络,先得到候选问题和目标问题对应的 具有上下文语义的向量表示形式,再计算两个向量的相似度,选择相似度最高的候选问题 作为匹配项。但是这个方法没有考虑到句子长度差异、相同词语数量和相同词语顺序等因 素,使得预测效果较差。
技术实现要素:
针对上述问题,本发明的目的在于提供一种基于wide  and  deep网络的FAQ匹配方 法、装置、设备和存储介质,本发明通过提取目标问题和候选问题的上下文信息、句子长度 差异、相同词数量以及相同词顺序等特征,得到一个更加全面的相似度进行FAQ匹配。 本发明实施例提供了一种基于wide  and  deep网络的FAQ匹配方法,包括: 分别获取目标问题以及候选问题的文本表征,并分别将所述目标问题以及候选问 题的文本表征映射成目标问题的第一映射向量以及候选问题的第二映射向量; 计算所述第一映射向量以及第二映射向量的第一相似度; 计算所述目标问题以及候选问题的句子长度差异的第二相似度; 计算所述目标问题以及候选问题的相同词比例的第三相似度; 计算所述目标问题以及候选问题的相同词逆序数比例的第四相似度; 根据所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度,以 获得文本相似度,并根据所述文本相似度进行FAQ匹配。 优选地,分别获取目标问题以及候选问题的文本表征,并分别将所述目标问题以 及候选问题的文本表征映射成目标问题的第一映射向量以及候选问题的第二映射向量,具 体为: 分别获取目标问题以及候选问题的文本表征; 对所述目标问题的文本表征以及候选问题的文本表征切分分词,并基于Word2Vec 映射、TextCNN网络后,映射成目标问题的第一映射向量以及候选问题的第二映射向量。 优选地,计算所述目标问题以及候选问题的句子长度差异的第二相似度,具体为: 计算每个候选问题与其对应目标问题的词数差的绝对值; 将所述绝对值除以所述候选问题和目标问题的次数之和,作为所述候选问题与所 述目标问题的句子长度差异率; 4 CN 111611371 A 说 明 书 2/8 页 基于所述句子长度差异率,计算所述目标问题以及候选问题的句子长度差异的第 二相似度。 优选地,计算所述目标问题以及候选问题的相同词比例的第三相似度,具体为: 计算每个候选问题与其对应目标问题相同的词的个数; 将所述个数除以目标问题的总词数,作为所述候选问题的基于相同词比例的第三 相似度。 优选地,计算所述目标问题以及候选问题的相同词逆序数比例的第四相似度,具 体为: 计算每个候选问题与其对应目标问题相同的词的集合; 以目标问题中的相同词出现的顺序作为正序,计算候选问题的相同词的逆序数; 将所述逆序数除以逆序数可能取值的最大值,作为该候选问题的逆序数比例; 基于所述逆序数比例,计算计算所述目标问题以及候选问题的相同词逆序数比例 的第四相似度。 优选地,根据所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相 似度,以获得文本相似度,并根据所述文本相似度进行FAQ匹配,具体为: 将所述第一相似度、所述第二相似度、所述第三相似度以及所述第四相似度拼接 为一个向量; 将所述向量拼接一个节点数为1,激活函数为sigmoid的全连接层,以获得最终的 文本相似度; 根据所述文本相似度进行FAQ匹配。 第二方面,本发明提供了一种基于wide  and  deep网络的FAQ匹配装置,包括: 向量映射单元,用于分别获取目标问题以及候选问题的文本表征,并分别将所述 目标问题以及候选问题的文本表征映射成目标问题的第一映射向量以及候选问题的第二 映射向量; 第一相似度获取单元,用于计算所述第一映射向量以及第二映射向量的第一相似 度; 第二相似度获取单元,用于计算所述目标问题以及候选问题的句子长度差异的第 二相似度; 第三相似度获取单元,用于计算所述目标问题以及候选问题的相同词比例的第三 相似度; 第四相似度获取单元,用于计算所述目标问题以及候选问题的相同词逆序数比例 的第四相似度; 文本相似度获取单元,用于根据所述第一相似度、所述第二相似度、所述第三相似 度以及所述第四相似度,以获得文本相似度,并根据所述文本相似度进行FAQ匹配。 优选地,向量映射单元,包括: 文本表征获取模块,用于分别获取目标问题以及候选问题的文本表征; 向量映射模块,用于对所述目标问题的文本表征以及候选问题的文本表征切分分 词,并基于Word2Vec映射、TextCNN网络后,映射成目标问题的第一映射向量以及候选问题 的第二映射向量。 5 CN 111611371 A 说 明 书 3/8 页 优选地,第二相似度获取单元,包括: 绝对值计算模块,用于计算每个候选问题与其对应目标问题的词数差的绝对值; 句子长度差异率获取模块,用于将所述绝对值除以所述候选问题和目标问题的次 数之和,作为所述候选问题与所述目标问题的句子长度差异率; 第二相似度获取模块,用于基于所述句子长度差异率,计算所述目标问题以及候 选问题的句子长度差异的第二相似度。 优选地,第三相似度获取单元,包括: 相同的词的个数计算模块,用于计算每个候选问题与其对应目标问题相同的词的 个数; 第三相似度获取模块,用于将所述个数除以目标问题的总词数,作为所述候选问 题的基于相同词比例的第三相似度。 优选地,第四相似度获取单元,包括: 相同的词的集合计算模块,用于计算每个候选问题与其对应目标问题相同的词的 集合; 逆序数计算模块,用于以目标问题中的相同词出现的顺序作为正序,计算候选问 题的相同词的逆序数; 逆序数比例获取模块,用于将所述逆序数除以逆序数可能取值的最大值,作为该 候选问题的逆序数比例; 第四相似度计算模块,用于基于所述逆序数比例,计算计算所述目标问题以及候 选问题的相同词逆序数比例的第四相似度。 优选地,文本相似度获取单元,包括: 向量获取模块,用于将所述第一相似度、所述第二相似度、所述第三相似度以及所 述第四相似度拼接为一个向量; 文本相似度获取模块,用于将所述向量拼接一个节点数为1,激活函数为sigmoid 的全连接层,以获得最终的文本相似度; FAQ匹配模块,用于根据所述文本相似度进行FAQ匹配。 本发明实施例还提供了一种基于wide  and  deep网络的FAQ匹配设备,包括处理 器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序能够被所述处理器执 行以实现上述实施例所述的基于wide  and  deep网络的FAQ匹配方法。 本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读 存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存 储介质所在设备执行如上述实施例所述的防数据丢失的水卡数据写入方法。 上述一个实施例中,通过在提取目标问题与候选问题的上下文语义信息的孪生网 络的基础上,再继续提取了目标问题和候选问题的句子长度差异、相同词语数量和相同词 语顺序这3类特征,能够得到一个更加有效的文本相似度比较方法,从而提升了模型的预测 效果。 附图说明 为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作 6 CN 111611371 A 说 明 书 4/8 页 简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本发明第一实施例提供的一种基于wide  and  deep网络的FAQ匹配方法的流 程示意图。 图2是本发明第二实施例提供的基于wide  and  deep网络的FAQ匹配装置的结构示 意图。
分享到:
收藏