可视化文档图谱构建方法-好方法网

技术摘要：
本发明公开了一种可视化文档图谱构建方法，其包括如下步骤：S1，依序对输入文本抽取关键词及对输入文本进行分句，并对分句生成的各单句进行分词，并对分词形成的各单词依序进行词性标注、命名实体识别和依存句法分析；S2：制定关系抽取规则，并基于关系抽取规则从S1所全部
背景技术：
在互联网信息爆炸的时代，人们很难从非结构化文本信息中快速而准确地获取文档主旨内容，尤其是报告、论文、报道等长文本文档，信息过载更加严重。因此，对各类文本进行一个“降维”处理显得非常必要。其中一种常见的方式是形成文本摘要，即对原文本进行归纳与总结，以简洁文本来概括文章的主要内容，但这种自然语言信息表达方式并不能使人们直观清晰地获取到所需信息。在2012年，谷歌提出了知识图谱概念。知识图谱本质上是一种基于图的数据结构，由节点(point)和边(edge)组成。知识图谱的每个节点表示实体，每条边为实体与实体之间的关系。因此，如何基于知识图谱的概念设计出一种文档图谱构建方法，实现将文本信息转化为图形格式并简化图文内容，以帮助用户感知和分析文章语义信息，是本领域技术人员需要研究的方向。
技术实现要素：
本发明的目的是提供一种可视化文档图谱构建方法，能够抽取文本的关键信息，并基于语义关联将文档映射为可视化图谱，并简化图谱复杂度帮助用户高效掌握文章信息。其采用的技术方案如下：一种可视化文档图谱构建方法，其包括如下步骤：S1，依序对输入文本抽取关键词及对输入文本进行分句，并对分句生成的各单句进行分词，并对分词形成的各单词依序进行词性标注、命名实体识别和依存句法分析；S2：制定关系抽取规则，并基于关系抽取规则从S1所得各单句中抽取三元组数据；所述三元组数据由两个实体词和一个关系词构成；S3：将S2所得三元组数据导入图数据库，形成文档图谱；S4：对图数据库中的数据进行图挖掘运算，基于挖掘运算实现文档图谱可视化。通过采用这种技术方案：首先对文档进行关键信息抽取，基于抽取到的关键信息挖掘输入文本中各个实体词之间的语义关联，并转化为“节点-边-节点”的图谱形式。并基于图挖掘计算实现和优化该图谱的可视化。通过将抽象的数据映射为图形元素，帮助用户有效地感知和分析文章语义信息。在上述过程中，采用基于逗号、句号、感叹号和问号对文本进行分割完成分句。而命名实体识别过程抽取的是句子中的人物、地点和机构这些具体特定意义的词项。优选的是，上述可视化文档图谱构建方法中：步骤S1中基于TextRank算法对输入文本提取关键词。通过采用这种技术方案：可只保留文本中名词性词汇参与TextRank权重计算，并通过设定阈值过滤掉一部分关键词。更优选的是，上述可视化文档图谱构建方法中：步骤S1中在进行命名实体识别时 3 CN 111597351 A 说　明　书 2/6 页引入外部词典；所述外部词典包括人名、地名和机构名称。通过采用这种技术方案：通过引入人名、地点以及机构等外部词典，能够有效提升命名实体识别的准确率。进一步优选的是，上述可视化文档图谱构建方法中：步骤S2中所述关系抽取规则采用依存句法分析结合中文语法规则构建，其包括isA规则和非isA规则。通过采用这种技术方案：在依存句法结构中，主要标注关系包括：主谓关系、动宾关系、前置宾语、动补结构、状中结构、介宾关系等。将这些结构中的几个结构组合映射为关系句法规则，应用于实体关系抽取。isA规则以“是”系动词为连接，包括实体与关系词有依存关系的规则、实体与关系词无依存关系的规则两类。非isA规则是以系动词之外的动词为连接，主要包含“主谓宾”、“主谓介宾”、“主谓补宾”、“前置介宾”四类句法结构的规则；此外，非isA规则还包含句子无主语的规则，该规则表示句子不存在主语，存在一个实体能与某个动词直接建立动宾关系或间接建立介宾、动补宾等关系，根据中文启发式规则追溯该句子的前一个句子，以前一个句子核心动词的主语作为该句的主语，抽取相应的三元组。进一步优选的是，上述可视化文档图谱构建方法中，步骤S3包括如下步骤：S31：分别建立各实体词之间基于语义的关联；S32：分别建立输入文本与各抽取的实体词之间的关联，存储于图数据库中并赋予唯一节点名称；S33：对S31和S32所得各关联赋予文档ID。通过采用这种技术方案：所述建立语义关联是指以三元组中的实体词对应到图数据库中的节点，以关系词对应到图数据库中的边，节点间通过边相连形成关系网络；实体词根据其类型标记为不同的Label；S32中通过建立实体与文档的关联可从全局图谱中获取每篇文档的子图谱。为避免冗余，存储于图数据库中各节点的名称是唯一的；通过对各关联赋予文档ID(即加上fileID属性)，实现了区分节点间关系的所属文档。所述文档ID采用系统自动生成的唯一性标识或预存人工设定的唯一性标识。进一步优选的是，上述可视化文档图谱构建方法中，步骤S4包括如下步骤：S41：计算文档图谱中各节点与其他节点的关联数；S42：基于节点权重公式分别计算各个节点的权重；S43：将存在同种关系的各个节点进行关系合并；S44：将S43所得数据导入前端进行可视化展示。通过采用这种技术方案：步骤S41计算所得文档图谱中各节点与其他节点的关联数即为各节点的度中心性，度中心性是在网络分析中刻画节点中心性的最直接度量指标。一个节点的度中心性越高，该节点在网络中就越具有凝聚力。图谱展示围绕度中心性最高的TOP前N个节点展开。同时在步骤S42计算各个节点的权重，目的是根据权重大小设置不同的节点展示大小，突出文本内容侧重点。通过步骤S41和步骤S42，简化了最终生成的图谱网络的复杂度、便于用户对图谱的理解。更进一步优选的是，上述可视化文档图谱构建方法中：步骤S42中所述节点权重公式为所述Wij为第i个文档图谱第j个节点的最终权重值；所述Dij为第i个文档图谱中第 j个节点与该文档谱图内其他节点的关联数；所述T为存入图数据库中的文档数；所述Nj表示含有节点j的文档图谱数目。通过采用这种技术方案：以上述权重公式计算各个节点的权重，不仅可以突显同 4 CN 111597351 A 说　明　书 3/6 页一文档不同节点的重要性，同时可以突出含有某些相同节点的文档之间的差异性。与现有技术相比，本发明能够基于依存句法关系抽取规则抽取文档中实体间的语义关系形成可视化的文档图谱，能够更加清晰直观地揭示文章主旨内容，突出各文档图谱内容的重点与不同点，同时简化了图谱网络的复杂度、便于用户高效掌握图谱信息。附图说明下面结合附图与

相关推荐