logo好方法网

基于深度学习的轨道交通规范关系抽取方法


技术摘要:
本发明基于深度学习的轨道交通规范关系抽取方法,包括获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体识别模型和实体间关系抽取模型,使用Softmax  全部
背景技术:
伴随着我国社会生产力的发展、科学技术的进步以及产业结构的调整,城镇化进 程不断推进,城市的基础设施尤其是城市轨道交通设施与城镇化发展密切相关。建设城市 轨道交通系统将成为我国城镇化过程中城市公共交通的发展方向,是符合城镇化发展需要 的。城市轨道交通工程设计规范是国内第一部关于轨道交通工程设计的地方标准,该规范 注重“人文、绿色、科技”三大理念,落实“安全型、服务型、环境友好型、节能型、快捷高效型、 网络化、国产化、标准化”等八项要求,较全面的对城市轨道交通建设提供了标准要求。在轨 道建设过程中,为了保证施工符合要求,需要建筑者不断查阅相应轨道交通规范,但是,轨 道交通设计涉及了近百本标准设计规范,并且规范的种类繁多且内容信息量巨大,同一标 准可能在不同的规范中出现,也可能不同的规范中要求存在异同,人工翻阅效率较低。 近几年,人工智能的发展成为了行业重要的发展方向,其中自然语言处理作为该 领域的重要研究方向,其研究成果已经应用于医疗、法律、金融等行业中,大大提高了领域 智能化水平。但是,轨道交通领域中也存在大量的文本信息,针对此领域的相关研究少之又 少。在现有的自然语言处理研究领域,现存涉及到轨道交通规范信息提取的相关方法主要 是针对英文的轨道交通法规,而对中文轨道交通设计规范的研究处于起步阶段。因此,人们 急需要找到一种能够对中文轨道交通设计规范进行信息化处理的方法,构建轨道交通领域 知识图谱,实现利用计算机去思考语义并且推理预测,提升轨道交通设计阶段的信息化水 平,提高设计阶段的生产效率。
技术实现要素:
本发明的目的是提供一种基于深度学习的轨道交通规范关系抽取方法,能够抽取 中文轨道交通设计规范中实体间关系,提高建筑领域从业人员的对轨道交通规范的查询速 率。 本发明所采用的技术方案是,基于深度学习的轨道交通规范关系抽取方法,包括 获取带有人工标注的有标签数据,对标签数据进行规范向量表示,将向量化数据输入到GRU 模型中进行实体和实体间关系特征提取,对提取的实体和实体间关系进行训练,生成实体 识别模型和实体间关系抽取模型,使用Softmax和Cross-Entropy函数结合的方式对提取的 实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实体间关系优化实 体间关系抽取模型,将待检测轨道交通规范语料输入实体间关系抽取模型中,即输出待检 测轨道交通规范语料中的实体间关系。 本发明的技术特征还在于, 有标签数据为标注有实体与实体间关系的轨道交通规范语料。 4 CN 111597420 A 说 明 书 2/10 页 基于深度学习的轨道交通规范关系抽取方法,具体包括以下步骤: 步骤1:采用网络爬虫技术获取轨道交通规范语料,删除规范语料中多余信息,对 规范语料进行规范化处理; 步骤2:从规范化处理后的规范语料中选出多个随机样本,标注每个随机样本中实 体与实体间关系; 步骤3:对标注过实体的规范语料进行预处理,生成实体训练集;对标注的实体进 行聚类处理,定义实体类型,生成实体词典; 步骤4:将实体训练集输入到Bert模型中进行预训练,生成文本特征向量,将文本 特征向量输入到Bi-LSTM CRF模型中,生成实体识别模型; 步骤5:对标注过实体间关系的规范语料进行预处理,生成实体间关系抽取训练 集;对标记过的实体间关系进行聚类处理,生成关系词典; 步骤6:将实体间关系抽取训练集输入到Bert GRU CRF模型中进行训练,生成实体 间关系抽取模型; 步骤7:将步骤1获取的所有轨道交通规范语料输入到GRU神经网络模型中,对轨道 交通规范语料进行实体标记,两两组成实体对,对实体对进行关系抽取,得到原始轨道交通 规范语料中的实体和实体间关系; 步骤8:对未分类成功的实体和未抽取成功的实体间关系进行判断,更新实体词 典、关系词典和实体间关系抽取模型; 步骤9:将待测试轨道交通规范语料输入到更新后的实体间关系抽取模型中,即输 出待测试轨道交通规范中实体间关系。 步骤2中,人工标注每个随机样本中实体与实体间关系。 步骤3中,人为定义实体类型,生成实体词典。 步骤4的具体过程如下: 步骤4.1:将实体训练集输入到Bert模型中,Bert模型按行读取实体训练集,并输 出每个字符串的字向量; 步骤4.2:Bert模型将实体训练集中每一个字转化为一维向量,得到一个句子的段 向量位置向量,再将段向量位置向量作为深度学习模型的输入,最后输出融合全文语义信 息的文本特征向量; 步骤4.3:将文本特征向量输入到Bi-LSTM CRF模型中,生成实体识别模型。 步骤6的具体过程如下: 步骤6.1:将实体间关系抽取训练集输入到Bert模型进行预训练,生成训练集向 量; 步骤6.2:将训练集向量输入到GRU模型中进行神经网络训练,生成特征矩阵; 步骤6.3:将特征矩阵输入到CRF模型中,CRF模型通过识别标签之间的相邻关系得 到概率最大的标签序列,生成实体间关系抽取模型。 步骤6.2中,将向量化表示的实体和训练集向量一并输入到GRU模型中进行神经网 络训练,生成特征矩阵;向量化表示的实体为向量化表示的步骤1中轨道交通规范语料中实 体,步骤1中轨道交通规范语料中实体通过实体识别模型获得。 实体间关系抽取模型采用交叉熵Cross-Entropy函数作为Softmax层的损失函数, 5 CN 111597420 A 说 明 书 3/10 页 Softmax用于预测出实体属于每一类别的概率,Cross-Entropy函数能预测出实体间关系的 最大概率类别。 步骤8中,更新实体词典,包括在实体词典中增加或修改实体类别;更新关系词典, 包括在关系词典中增加或修改实体间关系的类别;更新实体间关系抽取模型,即增加或修 改实体间关系抽取模型中的实体间关系类别。 本发明的有益效果是,对标签数据进行规范向量表示,将向量化数据输入到GRU模 型中进行实体和实体间关系特征提取,利用Bi-LSTM CRF对提取的实体和实体间关系进行 训练,生成实体识别模型和实体间关系抽取模型,使用Softmax和Cross-Entropy函数结合 的方式对提取的实体间关系特征进行关系分类,评估关系分类结果,根据未分类成功的实 体间关系优化实体间关系抽取模型,提高了实体间关系抽取模型识别的准确率,将待检测 轨道交通规范语料输入实体间关系抽取模型中,即输出待检测轨道交通规范语料中的实体 间关系。采用本发明基于深度学习的轨道交通规范关系抽取方法能够从轨道交通规范语料 中快速抽取出实体间关系,将该轨道交通规范关系抽取方法应用于轨道交通领域中的自动 问答统、语义网标注、知识系图谱构建等方面,能提高轨道交通规范中实体关系抽取速度和 准确率,从而缩短自动问答统和语义网标注对轨道交通规范的处理时间,提高建筑领域从 业人员对轨道交通规范的查询速率,提高了用户体验度。 附图说明 图1是本发明基于深度学习的轨道交通规范关系抽取方法的总框架图; 图2是本发明基于深度学习的轨道交通规范关系抽取方法的总流程图; 图3是本发明中Bert模型预训练的流程示意图; 图4是本发明中Bi-LSTM CRF模型进行实体识别的流程示意图; 图5是本发明中GRU CRF模型进行实体关系抽取的流程示意图。
下载此资料需消耗2积分,
分享到:
收藏