
技术摘要:
本发明公开了一种电力数据质量评估方法及其装置,具体方法包括:根据待评估数据对象选取基本层数据评估指标和准则层数据评估指标;对基本层数据评估指标和准则层数据评估指标匹配相应的数据评估规则集,并对各准则层数据评估指标赋予权重值W和期望值E;提取待评估数据 全部
背景技术:
随着供电企业信息化持续建设与深化应用,供电企业各项业务已与信息化初步融 合,信息系统内业务数据的数量和种类的逐步增多,数据共享需求迫切。而数据质量和数据 共享利用水平不高,一是数据对分析决策支持度低,同一数据存在多个数多源、统计口径不 一致;二是数据对运营管理的支持度有待提高,数据质量参差不齐,部分数据无业务系统支 持,缺乏统一的规范、标准和明确的数据问责;三是一线人员数据录入工作量巨大,数据重 复录入,业务功能重复;四是数据质量管控滞后,管控工作片面化,没有形成一个完整性的 数据质量管控体系和全面有效的数据质量保障机制,规范数据价值的深度挖掘。 电网业务数据大致分为3类:一是电网运行和设备检测或监测数据;二是电力企业 营销数据,如交易电价、售电量、用电客户等方面的数据;三是电力企业管理数据。电力统计 数据随着电力网络的扩大而快速积累,大量的数据蕴含着丰富的规律和信息,可以反映电 力企业的运营规模、人员结构、资产动态等情况,但从中精准的挖掘有效信息也存在巨大的 挑战。 在发电侧,随着大型发电厂数字化建设的发展,海量的过程数据被保存下来。这些 数据中蕴藏着丰富的信息,对于分析生产运行状态、提供控制和优化策略、故障诊断以及知 识发现和数据挖掘具有重要意义。基于数据驱动的故障诊断方法被提出,利用海量的过程 数据,解决以前基于分析的模型方法和基于定性经验知识的监控方法所不能解决的生产过 程和设备的故障诊断、优化配置和评估的问题。另外,为及时准确掌握分布式电源的设备及 运行状态,需要对大量的分布式能源进行实时监测和控制。为支持风机选址优化,所采集的 用于建模的天气数据每天以80%的速度增长。 在输变电侧,2006年美国能源部和联邦能源委员会建议安装同步相量监测系统 (synchrophasor-based transmission monitoring systems)。目前,美国的100个相位测 量装置(phasor measurement unit,PMU)一天收集62亿个数据点,数据量约为60GB,而如果 监测装置增加到1000套,每天采集的数据点为415亿个,数据量达到402GB。相量监测只是智 能电网监控的一小部分。 在用电侧,为准确获取用户的用电数据,电力公司部署了大量的具有双向通信能 力的智能电表,这些电表可以每隔5min的频率向电网发送实时用电信息。美国太平洋天然 气电力公司(Pacific Gas&Electric)每个月从900万个智能电表中收集超过3TB的数据。电 动汽车的无序充放电行为会对电网运行带来麻烦,如果能合理安排电动汽车的充放电时 间,则会对电网带来好处,变害为利,而前提是对基数很大的电动机车电池的充放电状态进 行监测,也会产生大数据。 以上可见,电力大数据已经成为生产、输配、营销等方面决策分析的基础平台。然 4 CN 111552686 A 说 明 书 2/8 页 而,由于人为原因、设备故障等情况,统计数据的收集、整理、分析面临着巨大的困难,数据 质量存在大量问题,不但不能为电网的运行情况提供全方位、多视角服务,反而带来数据灾 难,因此需要更精细、准确的电力统计数据质量评估体系。
技术实现要素:
本发明针对现有技术存在的不足,提供一种电力数据质量评估方法及其装置,为 电力大数据的集成和挖掘应用提供有力保障。 本发明通过以下技术方案实现: 本发明提供一种电力数据质量评估方法,包括以下步骤: S1 .根据待评估数据对象选取基本层数据评估指标和准则层数据评估指标;对基 本层数据评估指标和准则层数据评估指标匹配相应的数据评估规则集,并对各准则层数据 评估指标赋予权重值W和期望值E; S2.提取待评估数据对象并对其进行数据预处理得到第一处理数据; S3.将第一处理数据依据基本层数据评估指标进行基本层评估校验得到第一校验 结果; S4.将第一处理数据依据准则层数据评估指标进行准则层评估校验得到第二校验 结果; S5.根据第一校验结果和第二校验结果计算出数据质量综合评估结果。 根据选择的评估指标,设计各个指标对应的数据质量评估规则。一般而言,同一个 评估指标可以通过多条评估规则进行评估。例如:针对供电量和售电量两个统计指标的评 估指标完整性I1设计两条评估规则{R1(I1),R2(I1)},两条评估规则的具体内容为:1)R1 (I1):供电量为非空。2)R2(I1):售电量为非空。针对线损率的评估指标一致性I2设计的一 条评估规则{R1(I2)},评估规则的具体内容为:R1(I2):线损率为大于0且小于1的数值。 进一步优化方案为,数据预处理过程为:按重要程度将待评估数据对象分为重要 数据和非重要数据,重要数据用于下一步基本层评估校验和准则层评估校验,非重要数据 用于存档。 对于电网运行数据如此大的数据量,对其中每一个数据进行校验不现实。现按重 要程度将待评估数据对象分为两类,一类是重要数据,主要是将用于评估校验,如:区域电 网及省市电网发电总出力、总负荷数据、区域间和省市间口子交换电力数据等;另一类是非 重要数据,该类数据仅用于存档,如:220kV终端变电站线路的无功数值。对于重要数据,采 用相应数据校验规则对其进行数据清洗,对于非重要数据则返回直接存入数据中心。 进一步优化方案为,对准则层数据评估指标赋予的权重值W越大,表明该指标与数 据质量水平的关联度越大,反之,则越小。 进一步优化方案为,所述第二校验结果包括:准则层校验结果和满足数据评估规 则集中各评估规则的数据个数百分比S。 进一步优化方案为,数据质量综合评估结果包括:数据质量的综合校验结果、综合 评估值SA、总体期望值SE和相对差值C。 进一步优化方案为,所述基本层数据评估指标主要反应数据基本异常情况,其评 估校验包括三个层面:基于电网运行属性值的时间序列数据的校验;基于电网运行多个数 5 CN 111552686 A 说 明 书 3/8 页 据来源的数据校验;基于电网运行数据间关联关系的校验; 进一步优化方案为,基于电网运行属性值的时间序列数据的校验层面包括; 分时段设定阈值判别:将规律数据集合分为不同时段区间,参照其波动范围分别 设定最大阈值和最小阈值,最大阈值和最小阈值区间内的各个数据判定为满足分时段阈值 评估规则。 数据横向对比:将某一时刻的数据与其前后时刻的数据进行比较,如果差值大于 某一阈值,则判定为不满足数据横向对比评估规则。 数据纵向对比:将某一时刻的数据值,分别与其前1天和前2天相同时刻的数据值 进行比较,如果偏差大于设定的阈值,则判定为不满足数据纵向对比评估规则。 置信区间估计:考察待检测数据是否在置信区间内以判断该数据是否满足置信区 间评估规则。 从统计规律上,多日同时段某属性数据近似成正态分布,多日相同连续时段的该 属性数据变化率也近似成正态分布;以历史多日同时段某数据作为样本进行概率统计分 析,完成该时段正态分布模型中的期望值和方差估计,然后设定置信度,完成该时段负荷水 平的置信区间估计。 进一步优化方案为,基于电网运行多个数据来源的数据校验:对于同一属性的数 据如果有多个数据来源,将每个属性的所有来源数据进行比对,误差大于设定的阀值的数 据判定为不满足该评估规则。 进一步优化方案为,基于电网运行数据间关联关系的校验包括: 基于电网拓扑的数据校验:利用拓扑约束关系自动判断出可能出现的异常数据, 如果在数据均正确的情况下,仍不能满足以下平衡条件,则说明网络拓扑与实际拓扑不一 致; 平衡条件一:母线、线路、变压器、变电站有无功平衡; 平衡条件二:省市间总交换电力、电量的平衡; 基于其他人为因素数据间关联性的校验:电网运行中,部分人为设定的数据间的 关联性关系校验。 根据上述一种电力数据质量评估方法本发明还提供一种电力数据质量评估装置, 包括: 预设置模块用于根据待评估数据对象选取基本层数据评估指标和准则层数据评 估指标,对基本层数据评估指标和准则层数据评估指标匹配相应的数据评估规则集,并对 各准则层数据评估指标赋予权重值W和期望值E; 调取模块用于提取待评估数据对象并对其进行数据预处理得到第一处理数据; 第一数据校验模块用于将第一处理数据依据基本层数据评估指标进行基本层评 估校验得到第一校验结果; 第二数据校验模块用于将第一处理数据依据准则层数据评估指标进行准则层评 估校验得到第二校验结果; 第一计算模块用于根据第一校验结果和第二校验结果计算出数据质量综合评估 结果。 由于电力调度网络安全分区和纵向隔离的原因,调度中心应建立2个数据中心:II 6 CN 111552686 A 说 明 书 4/8 页 区数据中心和III区数据中心; II区数据中心的作用是收集与生产控制相关的数据,并将这些数据向III区做正 向同步; III区数据中心是包含所有调度系统生产和管理数据在内的总的数据仓库; 为保证数据中心入口数据的数据质量,在系统结构相应位置加入第一数据校验模 块和第二数据校验模块。 准则层数据评估指标包括:定量指标:及时性、完整性、准确性、唯一性、一致性、可 达性;非定量指标:可靠性、相关性、背景性、适量性。 准则层数据评估定量中:及时性的评估规则包括接入及时性规则,完整性的评估 规则有记录完整性规则、非空规则和外键规则;准确性包括值域规则、逻辑关系准确性规则 和函数依赖准确性规则;唯一性的评估规则包括记录唯一性规则;一致性包括:逻辑一致性 规则、函数一致性规则和包含一致性规则;合规性的评估规则包括:类型规则、格式规则、精 度规则、数据字典释义合规性规则和数据字典实施合规性规则。 本发明工作原理:本发明提供的电力大数据质量评估方法针对电力数据中心所存 储的电网运行类数据而言,在数据质量评估的过程中将数据质量评估指标分为两层结构: 基本层和准则层,首先对筛选出来的重要电力科学数据进行基准层数据质量评估,即先使 用通用指标进行质量评估,再进行相应的准则层数据评估校验,最后的综合评估结果是综 合了基准层数据质量评估校验结果和准则层数据评估校验结果;电力大数据的数据质量的 总体水平往往与其在质量因素中的短板关系更加密切,而对个别质量维度的测量可能不能 正确反映数据资源的质量水平,在质量评估活动中质量指标体系的建立应在保持可行性的 前提下尽可能周全。 本发明提供的一种电力数据质量评估方法,最后的综合评估结果是综合了基准层 数据质量评估校验结果和准则层数据评估校验结果;从数据质量本质特征维度、普遍技术 特征维度结合面向特定学科领域的细化维度(即准则层)来综合评估,而不是以个别质量维 度的测量来反映数据资源的质量水平;并且对特定学科领域细化维度的质量评估指标进行 分配了权重,以更精准地评估数据的质量。 (基本层)通用指标归纳了大部分科学数据共有的本质特征以及普遍的技术特征; 对于数据质量要求非常高的情况,如果电力数据的本质特征和普遍的技术特征都与要求标 准差距很大,就可以直接初步判定待评估的数据的质量等级,数据使用者就可以通过初步 判定结果决定数据的取舍,当电力数据质量满足基本层评估指标,再进行准则层的评估校 验,最后得出综合评估结果,数据使用者可以采取基本层评估校验结果或准则层评估校验 结果中的一种,也可以采取基本层评估校验和准则层评估校验的结合即最终综合评估结 果。 本发明具有如下的优点和有益效果: 本发明提供的一种电力数据质量评估方法及其装置,评估校验过程综合了基准层 数据质量评估校验结果和准则层数据评估校验结果;从数据质量本质特征维度、普遍技术 特征维度结合面向特定学科领域的细化维度(即准则层)来综合评估,以多个质量维度而不 是以个别质量维度的测量来反映数据资源的质量水平;并且对特定学科领域细化维度的质 量评估指标进行分配了权重,以更精准地评估数据的质量。 7 CN 111552686 A 说 明 书 5/8 页 附图说明 此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部 分,并不构成对本发明实施例的限定。在附图中: 图1为本发明评估方法示意图; 图2为本发明评估方法细节示意图; 图3为基本层数据评估指标体系示意图; 图4为准则层数据评估指标体系示意图; 图5为准则层数据质量评估过程示意图;