技术摘要:
本发明提出了一种基于BiLSTM‑CRF模型的电力调度领域命名实体识别方法及系统,该方法包括,对原始语料进行分词,并进行标注,将标注结果转化为符合BiLSTM‑CRF模型输入格式的第一标注结果;以所述BiLSTM‑CRF模型为基础对所述第一标注结果进行识别并输出第二标注结果; 全部
背景技术:
随着智能电网建设的持续推进以及智能电网各类业务的发展,中国智能电网在特 高压等许多方面已经走到世界前列,电网调度自动化系统对智能电网的安全运行越来越起 着不可或缺的作用。调度自动化系统各类应用越来越多,业务知识也越来越复杂,相关业务 人员大多只了解局部的业务知识,而不清楚与之相关的业务逻辑,只有极少数专家级人员 才能对整个业务流程有清晰的认识。因此当复杂的业务逻辑出现问题时,需要临时调动有 关业务人员,理清业务逻辑关系,才有可能找出引起问题的原因。而若建立起整个调度自动 化系统相关业务的知识图谱,就可以根据知识图谱所表达的相关业务逻辑,十分清晰地查 询所有的操作和数据流,从而找出产生错误的可能原因。 值得注意的是,在构建度自动化系统相关业务的知识图谱前,需要对电力调度领 域的文本语料进行命名实体识别,这是一项关键工作及技术。对于一段文本,命名实体识别 技术可以发现和定位文本中与给定主题相关联的关键词,即命名实体,并在这些实体之间 建立联系。命名实体识别技术已经在医疗病历服务,机器翻译,微博文本分析等领域具有大 量研究与应用。 然而,相关资料显示,当前电力调度领域命名实体的自动化识别并不理想,大部分 情况下仍然需要依靠人工手段进行信息抽取,尤其当文本语料完全是非结构化文本时,基 于规则的抽取方法不再适用,这就导致目前工作人员无法在非结构化电力调度文本语料中 进行有效的命名实体识别工作。
技术实现要素:
本发明为解决上述技术问题,提出了一种基于BiLSTM-CRF模型的电力调度领域命 名实体识别方法及系统,目的是实现通过自动化的方法进行电力调度领域命名实体抽取。 为了实现上述目的,本发明采用如下技术方案: 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,该方法包括: 步骤S100.对原始语料进行分词,以构造出词语边界明确的电力调度实体词典; 步骤S200.对所述词典中的词语进行词角色标注,并将标注后的内容转化为符合 所述BiLSTM-CRF模型输入格式的第一标注结果; 步骤S300.以所述BiLSTM-CRF模型为基础对所述第一标注结果进行识别并输出第 二标注结果; 步骤S400.从所述第二标注结果中还原识别出所述电力调度领域的命名实体。 进一步的,所述步骤S100具体包括: 4 CN 111553158 A 说 明 书 2/8 页 步骤S101.原始语料经基于互信息和左右熵的短语提取算法处理,得到固定长度 文本片段的互信息值和左右熵; 步骤S102.统计文本片段出现的频率,这些统计规则之后根据分词的效果进行参 数调整; 步骤S103.经人工审核后得到质量较高的电力调度实体词典。 进一步的,所述词角色的类型包括调度机构SM、调度人员SP、调度操作SO、电力设 施设备FAC、调度管理要求MR、电力资料EPD、调度条件SC、设备状态ES。 进一步的,步骤200中采用BMESO标注模型所述电力调度实体词典中的词语进行词 角色标注;BMESO标注模型定义如下:B表示实体首部字;M表示实体内部字;E表示实体尾部 字;S表示单字实体字;O表示非实体构成字。 进一步的,所述将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一 标注结果,具体包括:提取标准后的内容中的每个字符和字符的标签,将其加入“字符”和 “字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_ sequences函数,将得到的数组转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果。 进一步的,所述预设字符为“,。!?:‘’:;、.”。 进一步的,所述步骤S300具体包括: 步骤S301.加载预训练好的字向量,并使用样本数据到字向量中查表,生成训练用 的字向量矩阵; 步骤S302 .将字向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi- LSTM层的输出为字的每一个标签分值,可以通过挑选标签分值最高的作为该字的标签。 步骤S303.引入CRF层,进行句子级的序列标注。 进一步的,所述经过Bi-LSTM层进行编码处理包括:经过Bi-LSTM层自动提取句子 特征,将一个句子的各个字的char embedding序列(x1,x2,x3,…,xn)作为Bi-LSTM各个时间 步的输入 ,再将正向 L S T M输出的隐状态序列 与反向 L S T M的 在各个位置输出的隐状态进行按位置拼接 得到完整 的隐状态序列: Bi-LSTM层的输出为字的每一个标签分值,最后 通过挑选标签分值最高的作为该字的标签。 进一步的,所述步骤S400具体包括,若当前字C0被标注为B,则表示该字为一个命 名实体的开头,下一个字C1若被标注为E则表示该字为一个命名实体的结束,C0 C1共同构成 一个命名实体;若C1被标注为M,则继续判断下一个字C2,直到字Cn被标注为E,则C0C1C2…Cn 共同构成一个命名实体;若当前字被标注为S,则表示该字为一个单字命名实体;若当前字 被标注为O,则表示该字为非实体构成字,直到处理完所述第二标注结果文件中的全部内 容,则还原识别出所述电力调度领域的所有命名实体。 进一步的,所述标注工具为YEDDA。 进一步的,步骤S102中,基于左熵EL(W)、右熵ER(W)及互信息PMI值得到词的得分数 据Score,其中,Score=PMI min(EL(W) ,ER(W)),统计所述得分数据后得到得分从高到低排 序的词。 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别系统,包括: 5 CN 111553158 A 说 明 书 3/8 页 电力调度实体词典构造模块,用于基于互信息和左右熵的短语提取算法对原始语 料进行分词,以构造出词语边界明确的电力调度实体词典; 角色标注模块,用于基于标注工具对所述电力调度实体词典中的词语进行词角色 标注,并将标注后的内容转化为符合所述BiLSTM-CRF模型输入格式的第一标注结果; 标注结果识别模块,用于以所述BiLSTM-CRF模型为基础对所述第一标注结果进行 识别并输出第二标注结果; 电力调度领域命名实体识别模块,用于从所述第二标注结果中还原识别出所述电 力调度领域的命名实体。 相对于现有技术,本发明具有以下有益效果: 本发明为一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法,通过自动 化的方法进行电力调度领域命名实体抽取。在进行原始语料处理时使用互信息和左右熵的 短语提取算法,构造高质量的电力调度实体词典,明确词语的边界以便于后期的人工标注。 在进行模型标注时使用BMESO标注模型对词角色进行定义,在一定程度上提高了模型对命 名实体边界的识别能力。以BiLSTM-CRF模型为基础加入字向量特征构造电力调度领域命名 实体识别模型,解决了非结构化中文语料命名实体识别常见的问题,在一定程度上提高了 电力调度领域命名实体识别的效率,并且能够保证电力调度领域命名实体识别结果具有较 好的准确率和召回率。 附图说明 图1为本发明提出的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法流程 图; 图2为本发明提出的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法中构 造高质量的电力调度实体词典的流程示意图; 图3为本发明提出的基于BiLSTM-CRF模型的电力调度领域命名实体识别方法中还 原电力调度领域命名实体识别的流程示意图。