logo好方法网

一种基于电力行业客户服务数据的知识图谱的构建方法


技术摘要:
本发明公开了一种基于电力行业客户服务数据的知识图谱的构建方法,包括以下步骤:将两张表记为表A和表B,表A的主键和外键分别记为Ka和Fa,表B的主键和外键分别记为Kb和Fb,以表A为基准,判断Fa字段名称是否等于Fb;当表A的外键名称与表B的主键名称相同,则对Fa与Kb的内  全部
背景技术:
国家电网全网共有4.39亿电力客户,涉及客户的档案信息、电源点、计量点、95598 业务、电费等数据分散在公司多个专业,仅营销基础支撑平台就有近200TB数据。目前各专 业间信息共享程度不高,形成信息孤岛,从客户视角实现跨数据库间的关联分析较为困难。 现有工具无法实现上万级数据表、十万级数据字段的的高效关联,数据关联分析 难度大,缺乏基于数据字段名称及数据内容的相似性识别机制,无法从多版本数据中快速 找到需要的信息,分析数据获取困难,分析人员须熟悉源系统数据结构,并通过访问数据库 的方式才能进行数据收集,存在过程复杂、效率低下、潜在风险高等问题,用户无法基于业 务口径找到对应的数据关联及筛选条件,数据价值挖掘困难。
技术实现要素:
为克服相关技术中存在的问题,本发明实施例提供一种基于电力行业客户服务数 据的知识图谱的构建方法,解决了电力行业客户服务数据动辄涉及上万级数据表、十万级 数据字段,在数据开发过程中存在的问题。 本发明实施例提供一种基于电力行业客户服务数据的知识图谱的构建方法,包括 以下步骤: 将两张表记为表A和表B,表A的主键和外键分别记为Ka和Fa,表B 的主键和外键分 别记为Kb和Fb,以表A为基准,判断Fa字段名称是否等于Fb; 当表A的外键名称与表B的主键名称相同,则对Fa与Kb的内容进行一致性检验,如 果满足 或 说明表A与表B存在相关关系; 当不满足条件 或 时,对普通字段作判断,记Da、Db分别属于表A、B的 普通字段集合,记D=Da∩Db;若 说明表A与表B不存在相关性; 若 记D={D1,D2,...,Di},表示A与B之间的同名字段集合,对表A和表B 里面的Di字段进行一致性检验,如果i个字段中,至少有一个满足 或 判断 表A与表B存在相关关系; 若不满足 或 判断表A与表B不存在相关性; 基于相关性建立表间关联模型,并梳理各表之间的关系; 通过关联模型的结构型数据的知识图谱,构建基于电力行业客户服务数据的知识 图谱。 进一步地,所述表包括数据源表、中间表和结果表。 进一步地,记两张表分别为表A和表B,如果表A、B存在某一个字段名称相同,例如 3 CN 111581393 A 说 明 书 2/4 页 ID,且该字段下的内容满足 或 则认为表A  与表B存在相关关系。 进一步地,所述主键为实体中将一个属性或多个属性的数据设置成具有各不相同 的值,以便能惟一地标识实体中的每一条记录;将一个实体的一个属性或多个属性定义为 引用其他实体的主键或惟一约束属性,则引用实体中的这个属性或多个属性就称为外键。 进一步地,所述建立关联模型还包括建立数据库。 进一步地,记数据库中表的集合为T={T1,T2,T3,...,Tn},对集合T  中的表进行 标记。 进一步地,判断T1和其余表之间的关系,记R1={Ti,i{1,2,...,n}},表示与T1存 在相关关系的集合,判断Ti和其余表Ti,Ti 1,...,Tn之间的关系,记Ri={Ti,i{i 1,i 2,...,n}},表示与Ti存在相关关系的集合。 本发明的实施例提供的技术方案具有以下有益效果:本发明将客户服务数据涉及 的上万张表按照数据源表、中间表、结果表进行分类,为表间关系的方向性提供依据,然后 通过充分利用每个表的主键、外键、普通字段、以及字段内容,进行字段比较、内容一致性检 验等步骤,分析各业务系统的关联关系,从而建立表间关联模型,实现客户服务数据表间关 系的梳理,最后基于表间关系、字段建立知识图谱,为分析人员提供全量数据关系和原始数 据展示,解决了数据关联分析难度大、分析数据获取困难和数据价值挖掘困难等问题。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本发明。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并与说明书一起用于解释本发明的原理。 图1是本发明实施例中基于电力行业客户服务数据的知识图谱的构建方法的流程 图。 图2是本发明实施例中基于电力行业客户服务数据的知识图谱的构建方法的表间 关系示意图。
下载此资料需消耗2积分,
分享到:
收藏