logo好方法网

知识图谱中信息补全的方法、装置、计算机设备和存储介质


技术摘要:
本发明实施例公开了一种知识图谱中信息补全的方法、装置、计算机设备和存储介质,包括:首先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注结果  全部
背景技术:
随着科学技术的进步与发展,人们期望机器能够像人一样可以去理解海量的网络 信息,期望机器可以更快、更准确、更智能的获取到自己需要的信息,为了满足这种需求,智 能化的知识图谱应运而生。 但是,由于知识图谱是由文本数据得到的,知识图谱中的信息通常带有大量的错 误与缺失,例如,美容领域的知识图谱中有产品名称和产品品牌两个,但是实际情况就是, 并不是所有的信息都包含产品名称和产品品牌。因此,需要对知识图谱中缺失的内容进行 补全。 现有的补全方法,主要还是通过人工进行的,这样的方式不仅效率低下,而且浪费 大量的人力,最后,由于知识图谱中有新的信息不断加入,还需要定期对知识图谱进行补 全,以保证知识图谱中信息的完整性。
技术实现要素:
基于此,有必要针对上述问题,提出一种知识图谱中信息补全的方法、装置、计算 机设备和存储介质,以减少人工补全的工作量,提高知识图谱的补全效率。 第一方面,提供了一种知识图谱中信息补全的方法,所述方法包括:获取知识图谱 中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所 述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注,得 到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的一 个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少 一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注结 果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的所 述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的补 全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。 在一个实施例中,所述根据预设的字表矩阵,对所述已知文本进行处理,得到所述 已知文本对应的文本向量,包括:对所述已知文本进行字分割,得到所述已知文本中的每个 字;根据所述已知文本中每个字对应的字标识,从所述预设的字表矩阵中获取到所述已知 文本中每个字对应的字向量;根据每个字在所述已知文本中的位置,将所述已知文本中每 个字对应的字向量进行组合,得到所述已知文本对应的文本向量。 在一个实施例中,所述基于所述文本向量,对所述已知文本中的每个字进行标注, 得到所述已知文本中每个字对应的标注结果,包括:基于预设的第一权重参数对所述文本 向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每个字 5 CN 111552811 A 说 明 书 2/19 页 对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字特征 矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本中每 个字对应的标注结果。 在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向 量组成的;所述根据所述文本特征向量,生成所述待补全信息对应的补全文本,包括:基于 预设的第二权重参数对所述文本特征向量进行处理,得到各个时间步对应的字特征向量, 其中,一个时间步用于生成一个候选字,多个所述候选字用于组成补全文本;将每个所述时 间步对应的字特征向量与预设的第二权重矩阵相乘,得到每个所述时间步对应的字特征矩 阵;根据每个所述时间步对应的字特征矩阵,得到所述待补全信息对应的补全文本。 在一个实施例中,所述根据每个所述时间步对应的字特征矩阵,得到所述待补全 信息对应的补全文本,包括:对每个所述时间步对应的字特征矩阵进行归一化处理,得到每 个所述时间步对应的概率分布,所述时间步对应的概率分布反映所述时间步对应的字为各 个预设字的概率,所述预设字为填充字、所述字表矩阵记录的字或者未被所述字表矩阵记 录的字;根据每个所述时间步对应的概率分布,得到用于确定所述补全文本的最大概率;将 所述最大概率对应的文本作为所述待补全信息对应的补全文本。 在一个实施例中,所述根据每个所述时间步对应的概率分布,得到用于确定所述 补全文本的最大概率,包括:从所述时间步对应的概率分布中挑选出预设数量的最大概率; 根据当前时间步对应的预设数量的最大概率和下一时间步对应的预设数量的最大概率,得 到多个概率结果,所述下一时间步为与所述当前时间步相邻的时间步;从所述多个概率结 果中获取到所述预设数量的最大概率;将从所述多个概率结果中获取到的所述预设数量的 最大概率作为所述下一时间步对应的预设数量的更新概率;根据结束时间步对应的预设数 量的更新概率,得到所述补全文本对应的最大概率。 在一个实施例中,在所述获取知识图谱中的待补全信息对应的已知文本之前,还 包括:获取已知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结 果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一 权重参数、所述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练 文本中每个字的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述 已知训练文本中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述 第二权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全 训练文本中每个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个 字对应的参数预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指 定结果,确定第二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、 所述第二权重参数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中 每个字的预测标注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训 练文本对应的补全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应 的补全训练文本中每个字对应的人工指定结果。 第二方面,提供了一种知识图谱中信息补全的装置,包括:文本获取模块,用于获 取知识图谱中的待补全信息对应的已知文本;文本向量模块,用于根据预设的字表矩阵,对 所述已知文本进行处理,得到所述已知文本对应的文本向量;单字标注模块,用于基于所述 6 CN 111552811 A 说 明 书 3/19 页 文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的标注 结果,所述标注结果为补全结果和非补全结果中的一个;第一补全模块,用于当所述已知文 本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得 到所述待补全信息对应的补全文本;第二补全模块,用于当所述已知文本对应的各个标注 结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的 所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的 补全文本;图谱补全模块,用于利用所述补全文本在所述知识图谱中补全所述待补全信息。 在一个实施例中,所述文本向量模块,具体用于:对所述已知文本进行字分割,得 到所述已知文本中的每个字;根据所述已知文本中每个字对应的字标识,从所述预设的字 表矩阵中获取到所述已知文本中每个字对应的字向量;根据每个字在所述已知文本中的位 置,将所述已知文本中每个字对应的字向量进行组合,得到所述已知文本对应的文本向量。 在一个实施例中,所述单字标注模块,具体用于:基于预设的第一权重参数对所述 文本向量进行处理,得到所述已知文本中每个字对应的字特征向量;将所述已知文本中每 个字对应的字特征向量与预设的第一权重矩阵相乘,得到所述已知文本中每个字对应的字 特征矩阵;对所述已知文本中每个字对应的字特征矩阵进行分类处理,得到所述已知文本 中每个字对应的标注结果。 在一个实施例中,所述文本特征向量是由所述已知文本中每个字对应的字特征向 量组成的;所述第二补全模块,具体用于:基于预设的第二权重参数对所述文本特征向量进 行处理,得到各个时间步对应的字特征向量,其中,一个时间步用于生成一个候选字,多个 所述候选字用于组成补全文本;将每个所述时间步对应的字特征向量与预设的第二权重矩 阵相乘,得到每个所述时间步对应的字特征矩阵;根据每个所述时间步对应的字特征矩阵, 得到所述待补全信息对应的补全文本。 在一个实施例中,所述第二补全模块,具体用于:对每个所述时间步对应的字特征 矩阵进行归一化处理,得到每个所述时间步对应的概率分布,所述时间步对应的概率分布 反映所述时间步对应的字为各个预设字的概率,所述预设字为填充字、所述字表矩阵记录 的字或者未被所述字表矩阵记录的字;根据每个所述时间步对应的概率分布,得到用于确 定所述补全文本的最大概率;将所述最大概率对应的文本作为所述待补全信息对应的补全 文本。 在一个实施例中,所述第二补全模块,具体用于:从所述时间步对应的概率分布中 挑选出预设数量的最大概率;根据当前时间步对应的预设数量的最大概率和下一时间步对 应的预设数量的最大概率,得到多个概率结果,所述下一时间步为与所述当前时间步相邻 的时间步;从所述多个概率结果中获取到所述预设数量的最大概率;将从所述多个概率结 果中获取到的所述预设数量的最大概率作为所述下一时间步对应的预设数量的更新概率; 根据结束时间步对应的预设数量的更新概率,得到所述补全文本对应的最大概率。 在一个实施例中,所述装置,还包括:调整模块;所述调整模块,具体用于:获取已 知训练文本对应的文本向量、所述已知训练文本中每个字对应的人工标注结果和所述已知 训练文本对应的补全训练文本中每个字对应的人工指定结果;根据所述第一权重参数、所 述第一权重矩阵以及所述已知训练文本对应的文本向量,得到所述已知训练文本中每个字 的预测标注结果,并根据所述已知训练文本中每个字的预测标注结果和所述已知训练文本 7 CN 111552811 A 说 明 书 4/19 页 中每个字对应的人工标注结果确定第一损失;根据所述第二权重参数、所述第二权重矩阵 以及所述已知训练文本对应的文本向量,得到所述已知训练文本对应的补全训练文本中每 个字对应的参数预测结果,并根据已知训练文本对应的补全训练文本中每个字对应的参数 预测结果和所述已知训练文本对应的补全训练文本中每个字对应的人工指定结果,确定第 二损失;根据所述第一损失与所述第二损失之和,调整所述第一权重参数、所述第二权重参 数、所述第一权重矩阵以及所述第二权重矩阵,以使所述已知训练文本中每个字的预测标 注结果逼近于所述已知训练文本中每个字对应的人工标注结果,且已知训练文本对应的补 全训练文本中每个字对应的参数预测结果逼近于所述已知训练文本对应的补全训练文本 中每个字对应的人工指定结果。 第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算 机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取知识图 谱中的待补全信息对应的已知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到 所述已知文本对应的文本向量;基于所述文本向量,对所述已知文本中的每个字进行标注, 得到所述已知文本中每个字对应的标注结果,所述标注结果为补全结果和非补全结果中的 一个;当所述已知文本对应的各个标注结果中存在至少一个所述补全结果时,根据所述至 少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对应的各个标注 结果均为所述非补全结果时,获取在对所述已知文本中的每个字进行标注的过程中得到的 所述已知文本对应的文本特征向量,根据所述文本特征向量,生成所述待补全信息对应的 补全文本;利用所述补全文本在所述知识图谱中补全所述待补全信息。 第四方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序 被处理器执行时,使得所述处理器执行以下步骤:获取知识图谱中的待补全信息对应的已 知文本;根据预设的字表矩阵,对所述已知文本进行处理,得到所述已知文本对应的文本向 量;基于所述文本向量,对所述已知文本中的每个字进行标注,得到所述已知文本中每个字 对应的标注结果,所述标注结果为补全结果和非补全结果中的一个;当所述已知文本对应 的各个标注结果中存在至少一个所述补全结果时,根据所述至少一个补全结果,得到所述 待补全信息对应的补全文本;当所述已知文本对应的各个标注结果均为所述非补全结果 时,获取在对所述已知文本中的每个字进行标注的过程中得到的所述已知文本对应的文本 特征向量,根据所述文本特征向量,生成所述待补全信息对应的补全文本;利用所述补全文 本在所述知识图谱中补全所述待补全信息。 实施本发明实施例,将具有如下有益效果: 本发明提出了一种知识图谱中信息补全的方法、装置、计算机设备和存储介质,首 先获取待补全信息对应的已知文本;对所述已知文本进行处理,得到所述已知文本对应的 文本向量;然后对所述已知文本中的每个字进行标注,得到所述已知文本中每个字对应的 标注结果;进一步的,当所述已知文本对应的各个标注结果中存在至少一个所述补全结果 时,根据所述至少一个补全结果,得到所述待补全信息对应的补全文本;当所述已知文本对 应的各个标注结果均为所述非补全结果时,生成所述待补全信息对应的补全文本;最后,利 用所述补全文本在所述知识图谱中补全所述待补全信息。可见,对于知识图谱中的待补全 信息,根据待补全信息的已知文本,从已知文本里面找到待补全信息的补全文本,然后使用 补全文本补全该待补全信息,进一步的,当已知文本里面没有补全文本的时候,还能根据该 8 CN 111552811 A 说 明 书 5/19 页 已知文本,生成补全文本,从而实现信息补全。通过上述方式,能够实现知识图谱的自动补 全,大大的减少了人工工作量,并且提高了补全效率,不需要人工进行随时的检测,也能保 证知识图谱中的信息的完整性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 其中: 图1为一个实施例中知识图谱中信息补全的方法的实现流程示意图; 图2为一个实施例中步骤104的实现流程示意图; 图3为一个实施例中步骤106的实现流程示意图; 图4为一个实施例中步骤110的实现流程示意图; 图5为一个实施例中步骤110C的实现流程示意图; 图6为一个实施例中时间步、预设字以及补全文本的对应关系的示意图; 图7为一个实施例中步骤110C2的实现流程示意图; 图8为一个实施例中运算次数的示意图; 图9为一个实施例中知识图谱中信息补全的装置的结构框图; 图10为一个实施例中计算机设备的结构框图。
下载此资料需消耗2积分,
分享到:
收藏