
技术摘要:
本发明公开了一种基于深度学习的轨道交通事件知识图谱构建方法;采用词典匹配模式加人工标注方式构建事件识别模型训练数据;采用BERT‑BiLSTM‑CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回 全部
背景技术:
随着互联网技术的快速发展,众多行业与新兴的人工智能技术深度融合,取得了 显著的成果。城市轨道交通作为城市现代化的标配,在推动城市经济发展中发挥着重要功 效。轨道交通建设工程属于复杂的工程,具有规模庞大,建设工期长,投入资金巨大等特点。 在轨道交通建设工程中前期的设计规划阶段是后期工程的基础,只有完备初期设计规划才 能保障后期建设。然而在轨道交通工程的设计规划阶段,所参照的设计规范标准种类繁杂 且各规范条目信息量巨大,且整个轨道交通建设工程的信息化程度较低,从而造成了在设 计规划阶段查询某规范内容的困难。并且在设计阶段对设计人员专业能力有着极高的要 求,使得设计工作极具挑战。因此需要借助知识图谱,来表示轨道交通设计规范知识,促进 轨道交通建设工程的信息化。 目前大多数知识图谱是以实体为核心的实体知识图谱,但实体信息脱离具体的语 境,存在语义信息的片面性。相比实体,事件更能清晰的表达语义信息。在轨道交通设计标 准的规范条目中多包含有事件表达。因此采用事件知识图谱的形式来表达设计规范。相较 于传统的知识图谱的构建方法,大多数自动化程度低,耗时耗力,因此提出基于深度学习的 构建轨道交通事件知识图谱的方法,提升自动化程度,减轻工作量。
技术实现要素:
本发明旨在是提供一种基于深度学习的轨道交通事件知识图谱构建方法。通过事 件知识图谱来表示规范,使得所表示的内容的语义更丰富,精确。利用深度学习解决了传统 构建图谱技术中自动化程度低,耗时耗力的问题。 本发明所采用的技术方案为,采用事件触发词词典匹配模式加人工标注方式构建 轨道交通事件识别模型训练数据;采用BERT-BiLSTM-CRF算法训练规范事件识别模型,从轨 道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑 回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事 件关系模型的训练数据;采用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系识别模型,自 动抽取事件之间的关系,形成轨道交通事件知识图谱。事件知识图谱构建过程包括以下步 骤: 步骤1,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模 型的训练数据。 步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规 范条目划分,并对文本进行词性标注。 步骤3,将步骤2处理的文本使用BERT-BiLSTM-CRF算法训练轨道交通设计规范事 5 CN 111597350 A 说 明 书 2/8 页 件识别模型。 步骤4,对原始文本采用snowball算法,来构建事件关系训练数据。 步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将训 练集中的文本以事件对形式划分。 步骤6,将步骤5处理的文本使用BERT-BiLSTM-ATTENTION-SOFTMAX算法训练关系 识别模型。 步骤7,对轨道交通设计规范进行预处理,以规范条目划分。 步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中, 抽取规范中的事件,事件包含事件触发词和事件元素。 步骤9,将步骤8中识别出来的事件,进行事件统一。 步骤10,将步骤9中识别出来的事件,存入事件数据库中。 步骤11,将步骤9中识别出来的事件以“事件元素-关系-事件触发词”的三元组的 形式存入图数据库。 步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成 的事件关系识别模型中,抽取规范中事件间的关系。 步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词-关 系-事件触发词”的三元组形式存入图数据库。 步骤1中,事件由事件触发词和事件元素所组成;因事件触发词大多是具有固定的 词汇,因此采用词典匹配的方式来加速人工标注,构建模型训练数据;词典的扩展可以借助 同义词林。 步骤3中,使用BERT-BiLSTM-CRF算法训练事件识别模型,整个模型由三个部分组 成,分别是BERT层,BiLSTM层,CRF层。BERT预训练模型用来获取包含规范的上下文特征信息 的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,CRF层用来学习句子的约束 条件,过滤错误的预测序列。 步骤4中,利用半监督snowball算法来构建事件关系识别模型训练集。snowball算 法具体步骤如下: 步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个 事件关系表。 步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句, 并生成模板;模板的格式为五元组形式,分别为