logo好方法网

一种基于电网全业务数据的电力知识图谱构建方法


技术摘要:
本申请实施例提出了一种基于电网全业务数据的电力知识图谱构建方法,包括将电网全业务数据转换为RDF模型;对RDF模型中的数据进行类型划分,基于划分后的选取含义相近的词组;将选出的词组按实体属性不同构建知识三元组;根据三元组构建电力知识图谱。借助知识图谱技术  全部
背景技术:
全业务统一数据中心是全业务、全类型、全时间维度数据的汇集中心,是为公司各 类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境,改变过 去分析型应用数据反复抽取、冗余存储的局面,实现“搬数据”向“搬计算”的转变,支撑企业 级数据分析应用的全面开展。 目前全业务统一数据中心中通过主数据管理,统一编码管理等方式进行了数据贯 通和数据管理,但是对于历史数据的梳理和贯通却收效胜微,缺乏有效的保障措施,难以确 保数据贯通的持续有效。
技术实现要素:
为了解决现有技术中存在的缺点和不足,本发明提出了一种基于电网全业务数据 的电力知识图谱构建方法,借助知识图谱技术,实现业务数据的跨业务贯通,并提供网格化 的高速检索和深度挖掘功能,提升企业管理的规范化、标准化、精益化水平。 具体的,所述电力知识图谱构建方法,包括: 将电网全业务数据转换为RDF模型, 对RDF模型中的数据进行类型划分,基于划分后的选取含义相近的词组; 将选出的词组按实体属性不同构建知识三元组; 根据三元组构建电力知识图谱。 可选的,所述将电网全业务数据转换为RDF模型,包括: 将表示电网全业务数据的结构化数据映射成为RDF模型。 其中,结构化数据保存在关系型数据库中,将关系型数据库的表描述为一个类,列 描述为属性,行描述为实体,单元格的值描述为属性值。 可选的,所述对RDF模型中的数据进行类型划分,基于划分后的选取含义相近的词 组,包括: 采用隐马尔科夫模型对文本的每句话分词,计算分词后词向量的相似度; 基于词向量相似度数值大小,对符合阈值范围内的实体词进行筛选,基于筛选结 果进行对象匹配。 可选的,所述采用隐马尔科夫模型对文本的每句话分词,包括: 将每个分词与中的类、属性、实体词进行匹配,计算两个词向量Vi,Vj的余弦相似度 Sim(Vi,Vj)和词性相似度Set(Vi,Vj), 4 CN 111552813 A 说 明 书 2/4 页 其中depthVi表示Vi的等级,Dist(Vi,Vj)表示Vi和Vj在等级树中的距离,设定阈值 x1、x2判断两词在存储结构上的相似度。 可选的,所述基于词向量相似度数值大小,对符合阈值范围内的实体词进行筛选, 基于筛选结果进行对象匹配,包括: 如果Set(Vi,Vj)<x1或Sim(Vi,Vj)<x2,则认为两词具有相似的词义或词性,将所 有符合阈值范围的实体词按相似度排序,该分词匹配到相近的类、属性、实体词。 可选的,所述将选出的词组按实体属性不同构建知识三元组,包括: 统计两个不同实体相组合、一个实体和一个属性相组合的所有可能情况,其中两 个实体或一个实体和一个属性作为两个已知元素e、r; 计算每一个其它实体与已知元素e,r匹配成三元组的概率h(e,r), 其中Wc为被测试元素的向量矩阵,bp表示射影偏差, De和 Dr是k×k维的对角矩阵,分别表示实体和关系权重,bc表示关联偏差; 设置阈值y,若存在h(e,r)>y的情况,选择其中最大元素的与e、r构成三元组。 本发明提供的技术方案带来的有益效果是: 构建完成的知识图谱可以为统一分析服务模块中的新型应用提供知识服务,基于 知识图谱技术,结合运检、营销的历史设备数据,构建运检、营销统一的台账及运行数据图 谱,实现了台账、运检数据的自动匹配,可以动态感知数据之间的变化情况,提高了营配数 据的贯通效率及质量。另外,应用于构建跨运检、物资的数据化决策模型和监控体系,实现 了企业数据的跨业务贯通,完成对缺陷设备采购信息的查询,为供应商评价及采购计划制 定提供了可靠依据。 附图说明 为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图 作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1是本申请实施例提出的一种基于电网全业务数据的电力知识图谱构建方法的 流程示意图。
分享到:
收藏