logo好方法网

一种基于人工智能的轨道交通规范实体关系自动补全方法


技术摘要:
本发明公开了一种基于人工智能的轨道交通规范实体关系自动补全方法,包括构建实体关系补全模型,对轨道交通规范和其中名词词性分词输入到实体关系补全模型中,判断输入的规范是否为简单句,若是简单句,查找轨道交通规范中实体相关属性,生成实体关系三元组,若不是简  全部
背景技术:
知识图谱是一种语义知识库,知识图谱采用三元组储存知识。知识图谱能够促进 计算机更好的理解自然语言,为人们提供更好的服务,实现人机自然切换,实体识别和关系 抽取是构建知识图谱的重要过程。 由于中文语法复杂,句子结构无序,没有严格的限制,部分标准文档中实体成分缺 失,但满足基本语义便能生成了描述文本。这些原因导致了各个专业领域的规范在书写上 也有较大差异。因此在专业领域的知识图谱构建时,虽然可以从规范条目中提取出实体,但 是由于缺失实体成分却不能判断出实体之间的关系。 最近几年我国的轨道交通发展迅猛,不仅深刻影响着人民的生产生活方式,同时 极大促进了社会生产力的发展。而《轨道交通设计规范》是轨道交通设计、修建、检测和维护 的主要依据,它对轨道交通设计的各个部分提出了明确的要求和解释说明。所以,将该规范 中的实体和关系抽取出来构建知识图谱,再结合知识图谱的检索、推理和查询等技术制作 成地铁的设计、检测和施工。并且在其知识图谱相关生成的网站或者应用程序上按照关键 字查寻便可以将各单个物体多个约束查询出来。修建人员在修建轨道交通中各个单独的物 体时便可根据查询结果设计修建,检测人员在检测工程是否符合规范便可直接根据显示的 约束进行比对。由此可以使建筑人员更加方便的设计和检测地铁设计的是否符合规范。 对缺失的实体关系成分进行补全,是知识图谱构建工作中非常重要的基础。缺失 的实体关系直接会影响信息抽取,进而影响图谱中的节点和边的结构,使得知识图谱的推 理性能大大降低。通过补全实体关系,才能进行轨道交通规范的自动化构建图谱及后期的 查询、推理和智能问答。 由于现在对各领域图谱构建和规范的自然语言处理都处于萌芽阶段,现存的概率 模型和基于词典都缺失大量的精确标注文档。但是这些问题需要专业的从业人员进行大量 分析处理,进行人工实体关系补全,过程费时费力;而且设计规范涉及到30多个行业,从而 人员只能从自身现有经验进行补全处理,这样导致补全实体关系的准确率低等问题。
技术实现要素:
本发明的目的是提供一种基于人工智能的轨道交通规范实体关系自动补全方法, 解决了现有轨道交通规范实体关系补全方法只能通过人工进行,费时费力,准确率低的问 题。 本发明所采用的技术方案是,一种基于人工智能的轨道交通规范实体关系自动补 全方法,包括以下步骤: 步骤1:根据轨道交通规范构建实体关系补全模型; 4 CN 111597349 A 说 明 书 2/6 页 步骤2:对轨道交通规范进行词性标注,提取轨道交通规范中的名词词性分词; 步骤3:将所有轨道交通规范和提取的名词词性分词输入到实体关系补全模型中, 提取的名词词性分词作为待补全的实体;用符号检测法判断输入的每一个轨道交通规范是 否为简单句,若是简单句,进行步骤4,若不是简单句,进行步骤5; 步骤4:查找轨道交通规范中实体相关属性,判断实体与实体关系,生成实体关系 三元组,并进行存储; 步骤5:对轨道交通规范进行基于深度学习的依存句法分析,若前句是并列结构的 名词词组(Noun  Phrase,NP),进行步骤6,若不是,进行步骤7; 步骤6:抽取后句属性词和实体,使前句实体与后句属性词n:n匹配,生成实体关系 三元组,并进行存储; 步骤7:判断是否前句语法为主谓宾,后句为宾补,若是,进行步骤8,若不是,进行 步骤9; 步骤8:将前句实体与宾语直接匹配,后句关键词与宾语实体直接匹配,生成实体 关系三元组,并进行存储; 步骤9:计算词汇相关度,对相关度超过阈值的实体与实体关系进行输出,生成实 体关系三元组,并进行存储; 步骤10:将步骤4、步骤8和步骤9中生成的实体关系三元组输出,得到完整的语义 结构实体规范,即完成轨道交通规范实体关系的自动补全。 本发明的技术特征还在于, 实体关系三元组为“实体-动词-实体”或“实体-程度-属性”。 步骤1的具体操作步骤如下: 步骤1.1:获取轨道交通规范原文数据,对获取的轨道交通规范原文数据进行预处 理和训练,生成字典; 步骤1.2:对字典进行处理,挖掘缺失特征,提取实体补全规则和方法; 步骤1.3:采用提取的实体补全规则和方法构建实体关系补全模型。 步骤2中,采用Bi-LSTM CRF词性标注模型对轨道交通规范进行词性标注,形容词 性分词划分为属性词,动词词性分词用来判断实体和实体之间的关系。 步骤3中,简单句为只含有顿号和一个句号的句子。 步骤4的具体操作步骤如下: 步骤4.1:查找轨道交通规范中实体相关的属性和动作关系; 步骤4.2:提取动词,判断实体与实体关系,并进行词性分析提取属性; 步骤4.4:根据实体与实体关系以及提取的属性,生成实体关系三元组,存储实体 关系。 步骤9的具体操作步骤如下: 步骤9.1:判断轨道交通规范是否前句为非并列结构,且后句存在指代词,若是,对 指代词后属性词与前句所有实体进行词汇相关度计算,若不是,命名实体识别词组,计算所 有分词之间的词汇相关度; 步骤9.2:将词汇相关度超过阈值的实体与实体关系进行输出,生成实体关系三元 组,并进行存储。 5 CN 111597349 A 说 明 书 3/6 页 步骤9中,采用基于知网词库的词汇相关度计算算法来计算词汇相关度。 基于知网词库的词汇相关度计算算法如下: rel(w1,w2)=max{a1*sim(s1,s2) (1-a1)*asso(s1,s2)} ssso(s1,s2)=∑ri*asso(p1,p2) 上式中,rel(w1,w2)表示词汇w1与词汇w2的相关度,sim(s1,s2)表示词汇w1与词汇w2 的相似度,asso(s1,s2)表示实体s1和s2的语义关联度;ɑ1表示可调节参数,用于将相似度与 语义关联度进行线性调和,它的取值范围为[0,1];sli表示词汇w1的义项,i=1,...,n表示 词汇w1具有n个义项;s2j表示词汇w2的义项,j=1,...,m表示词汇w2具有m个义项;γi表示实 体概念中不同部分的义原关联系数,是对两个概念每部分的拟合,同时必须满足∑ri=1,p1 为义项s1的义原,p2为义项s2的义原。 本发明的有益效果是,通过深度学习得到轨道交通规范的关系,然后根据知网的 义原方法进行实体类型名词间的关系进行补充,完成知识图谱构建过程中的关系补全,大 大减少了人工构建图谱和关系数据库的工作量,提高了轨道交通规范实体关系补全的准确 性,同时提高了轨道交通规范知识图谱的结构准确性,为基于知识图谱的轨道交通智能查 询、推理和问答奠定基础; 通过深度学习,提高了实体及其关系的识别度,并且采用《知网》中实体类词语的 语义相似度进行自动化判定,从而实现实体关系的补充,为构建知识图谱构建提供坚持基 础。 附图说明 图1是本发明基于人工智能的轨道交通规范实体关系自动补全方法的流程示意 图; 图2是本发明轨道交通规范实体关系自动补全方法中采用BI LSTM CRF词性标注 模型对轨道交通规范进行词性标注的过程示意图; 图3是本发明轨道交通规范实体关系自动补全方法中采用基于知网词库的词汇相 关度计算算法来计算词汇相关度的过程示意图。
下载此资料需消耗2积分,
分享到:
收藏