logo好方法网

一种文档级关系抽取方法、装置、设备及存储介质


技术摘要:
本发明公开了一种文档级关系抽取方法、装置、设备及存储介质,该方法包括:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。  全部
背景技术:
目前,机器人通过计算机系统与操作员或程序员进行人机对话,实现对机器人的 控制与操作。随着人工智能技术的高速发展,各种各样的智能对话机器人在日常生活的不 同领域中大放异彩。自然语言理解作为对话系统的唯一输入接口,对于整个系统的重要性 不言而喻。其接受纯文本形式的自然语言,也可通过语音技术将语音转为文字。首先必须经 过实体识别和关系抽取将无结构化的数据转化为结构化数据,才能进行后续的意图识别、 对话管理和答案生成等步骤。一个性能良好的实体关系抽取模型,对于对话系统中的自然 语言理解和知识库的构建起到了至关重要的作用。 句子级别的关系抽取方法只能识别包含两个实体的句子文本,远不能满足实际的 工业应用。自此,基于文档级别的多实体关系抽取方法开始进入到了人们的视线当中。但是 当前的文档级关系抽取方法仅仅对单个实体对即目标实体本身对进行关系抽取,得到关系 抽取结果,单个目标实体对数据比较单一,这样抽取结果的准确性较低。 因此,如何提升抽取结果的准确性是亟待解决的问题。
技术实现要素:
本发明的目的是提供一种文档级关系抽取方法、装置、设备及存储介质,以实现提 升抽取结果的准确性。 为解决上述技术问题,本发明提供一种文档级关系抽取方法,该方法包括: 获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量; 将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量; 将实体对结合向量输入分类器,得到关系抽取结果。 优选的,所述对文档文本进行转换得到目标实体对向量、非目标实体对向量,包 括: 对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量; 从文档文本中识别出单词类型向量、单词共线信息向量; 将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特 征融合,得到融合结果; 将融合结果输入至人工神经网络,输出得到隐层状态向量; 利用隐层状态向量得到目标实体对向量、非目标实体对向量。 优选的,所述利用隐层状态向量得到目标实体对向量、非目标实体对向量,包括: 从文档文本中获取目标实体对、非目标实体对; 利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每 4 CN 111597341 A 说 明 书 2/8 页 一个实体的向量; 对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入 向量进行融合,得到实体的融合向量; 对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量。 优选的,所述将目标实体对向量和非目标实体对向量相结合,得到实体对结合向 量,包括: 基于非目标实体对向量,计算得到上下文实体对信息向量; 将上下文实体对信息向量和目标实体对向量进行结合,得到实体对结合向量。 优选的,上下文实体对信息向量的计算公式如下: 其中,oc为上下文实体对信息向量,m为非目标实体对的个数,αi为权重,oi为非目 标实体对向量。 优选的,权重αi的计算公式如下: 其中,g(oi,os)=oiAos,函数g()表示计算上下文关系相对于目标关系的注意力得 分,A为训练参数,os为目标实体对向量。 优选的,所述实体对结合向量的计算公式为: o=[os,oc]; 其中,o为实体对结合向量,os为目标实体对向量,oc为上下文实体对信息向量。 本发明还提供一种文档级关系抽取装置,包括: 转换模块,用于获取文档文本,对文档文本进行转换得到目标实体对向量、非目标 实体对向量; 结合模块,用于将目标实体对向量和非目标实体对向量相结合,得到实体对结合 向量; 输入模块,用于将实体对结合向量输入分类器,得到关系抽取结果。 本发明还提供一种文档级关系抽取设备,包括: 存储器,用于存储计算机程序; 处理器,用于执行所述计算机程序时实现如上任一项所述的文档级关系抽取方法 的步骤。 本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算 机程序,所述计算机程序被处理器执行时实现如上任一项所述的文档级关系抽取方法的步 骤。 本发明所提供的一种文档级关系抽取方法、装置、设备及存储介质,获取文档文 本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非 目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽 取结果。可见,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是 目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系 5 CN 111597341 A 说 明 书 3/8 页 预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测, 即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包 括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提升抽取结果的准 确性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1为本发明所提供的一种文档级关系抽取方法的流程图; 图2为文档级别关系抽取示意图; 图3为字符嵌入模型图; 图4为词嵌入模型图; 图5为本发明所提供的一种文档级关系抽取装置结构示意图; 图6为本发明所提供的一种文档级关系抽取设备结构示意图。
下载此资料需消耗2积分,
分享到:
收藏