
技术摘要:
本发明为了现有技术中存在的问题,创新提出了一种输变电运检数据质量评估方法,从有效性、冗余度、信息量、完整性以及准确性等维度分别建立评估模型,用于评价输变电设备运检数据质量;基于无效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑 全部
背景技术:
随着电网规模快速发展,电网容量正在持续扩大,输变电设备运检数据量呈指数 级增长,庞大的设备数量和有限的人力之间的矛盾会越来越大,传统的以人工获取信息为 主的工作方式已不能适应电网设备智能化运检的发展要求,亟需智能感知技术手段提高保 证数据准确性、完整性以及工作效率。 在大数据时代下,输变电设备运检数据具有多样性、丰富性的特点,海量的数据为 输变电设备状态评估提供了数据支撑,但同时也对传统的数据管理、数据质量模式提出了 更高的要求。如何建立数据质量评估模型,提高输变电设备运检数据的质量,对设备状态评 估意义重大。 现有技术中的数据质量评估模型一方面,对于数据质量的评价指标较为单一,无 法从多个方面进行数据质量的评价;另一方面,数据质量评价指标并不能反映数据的信息 量、完整性以及准确性,对于数据质量的评价,不够全面,不利于输变电设备运检数据质量 的综合评估。
技术实现要素:
本发明为了解决现有技术中存在的问题,创新提出了一种输变电运检数据质量评 估方法及系统,有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了输变 电设备运检数据质量的综合评估效果以及评估可靠性。 本发明第一方面提供了一种输变电运检数据质量评估方法,包括: 获取输变电设备运检数据; 针对获取的输变电设备运检数据分别从多个维度建立评估模型进行数据质量的 评估; 其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无效比建立数据 有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长模型建立数据 信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权局部因子算法 以及异常度建立准确性评估模型。 结合第一方面,在第一方面第一种可能的实现方式中,基于无效比建立数据有效 性评估模型具体是: 基于无效比建立数据有效性评估模型: 6 CN 111597510 A 说 明 书 2/15 页 其中,Score1为数据有效性得分,αinv为数据无效比,表达式为: 无效点为输变电设备监测数据中某项记录数据中全部为0或者某项记录数据中存在小于0 的数据,有效点为输变电设备监测数据中某项记录数据中不全为0或者某项记录数据中不 存在小于0的数据,θ1为第一曲线斜率参数。 结合第一方面,在第一方面第二种可能的实现方式中,基于重复率建立数据冗余 度评估模型具体是: 基于重复率建立数据冗余度评估模型: 其中,Score2为数据冗余度得分,αry为数据重复率,表达式为: 重复记录为输变电设备监测数据中多项连续记录数据完全相同或者多项记录数据中记录 时间完全相同,有效记录为为输变电设备监测数据中多项连续记录数据不完全相同或者多 项记录数据中记录时间不完全相同,θ2为第二曲线斜率参数。 结合第一方面,在第一方面第三种可能的实现方式中,基于逻辑斯蒂增长模型建 立数据信息量评估模型具体包括: 基于逻辑斯蒂增长模型建立数据信息量评估模型: 其中,Score3为数据信息量得分,c为第三曲线第一斜率参数,r1为第三曲线第二 斜率参数,avgI为平均信息量,表达式为: 其中,V为第一数据集,I(x)为数据点x的信息量。 进一步地,所述I(x)表达式具体为:I(x)=-log2p(x),其中,p(x)为监测时间天数 t对应的数据点x出现的概率,表达式为: 数据点xi对应于归一化处理后的数据点x,ui为正态分布的监测时间天数为ti对应 的数据点xi的均值,σi为正态分布的监测时间天数为ti对应的数据点xi的标准差, 7 CN 111597510 A 说 明 书 3/15 页 (xi-1,ti-1)和(xi 1,ti 1)分别为距离(xi,ti)最近的前后两个有效监测点,neighbor (xi)表示[ti-3,ti 3]时间段内有效监测点的集合,μnei为neighbor(xi)中所有数据点的均 值,mi为[ti-3 ,ti 3]时间段内没有有效监测点的天数,表达式为mi=7-|neighbor(xi)|, validdata表示所有有效监测点的集合,其中,有效监测点为所在数据点没有重复监测记 录、全0监测记录或监测值与均值距离不超过3倍样本方差的监测记录。 进一步地,基于相对缺失信息量建立数据完整性评估模型具体包括: 基于相对缺失信息量建立数据完整性评估模型: 其中,Score4为数据完整性评估得分,r2为第四曲线斜率参数,relI为相对缺失信 息量,表达式为, I(xi)为数据点xi的信息量,miss为数据缺失点的集合,validdata表示所有有效监 测点的集合,I(Ti)为Ti时刻的信息量。 进一步地,Ti时刻的信息量I(Ti)表达式为:I(Ti)=-log2p(Ti),其中,p(Ti)为Ti时 刻对应的数据点xi出现的概率,其表达式为: ui为正态分布的Ti时刻对应的数据点xi的均值,σi为正态分布的Ti时刻对应的数据 点xi的标准差, 8 CN 111597510 A 说 明 书 4/15 页 ,(xi-1,Ti-1)和(xi 1,Ti 1)分别为距离(xi,Ti)最近的前后两个有效监测点, neighbor(Ti)表示 时间段内有效监测点的集合,μnei为neighbor(Ti)中所有数 据点的均值或所有有效监测点的均值,mi为 时间段内没有有效监测点的天 数,表达式为mi=7-|neighbor(xi)|。 结合第一方面,在第一方面第四种可能的实现方式中,基于加权局部因子算法以 及异常度建立准确性评估模型具体包括: 基于异常度建立准确性评估模型: Score5=max(0,5-abn(D)), 其中,abn(D)为异常度,公式为: D为第二数据集,n为第二数据集D中有效数据点的数量,有效数据点为输变电设备 监测数据中某项记录数据中不全为0或者某项记录数据中不存在小于0的数据,li为通过加 权局部异常因子算法识别的错误数据分别对应的wolf值。 进一步地,通过加权局部异常因子算法识别的错误数据分别对应的wolf值具体 为: 构建第一距离公式:k-dist(p)=max{d(p,o)|o∈k-neighborp}, 其中,p的k-距离表示k-neighborp中的数据点到p的最大距离,d(p,o)为数据点p 到数据点o的欧式距离,k-neighborp为距离数据点p最近的k个数据点的集合,数据点p与数 据点o均同属于第二数据集D; 根据第一距离公式构建集合公式: Neik(p)={o∈D\{p}d(p,o)≤k-dist(p)}; 其中,Neik(p)为数据点p的k-邻域,具体为除数据点p外所有到数据点o的距离小 于等于k-dist(p)的数据点的集合; 根据第一距离公式构建第二距离公式: reach-dist(p,o)=max{d(p,o) ,k-dist(o)}; 其中,reach-dist(p,o)为数据点p到数据点o的k-可达距离; 根据第一距离公式、第二距离公式、集合公式构建密度公式: 9 CN 111597510 A 说 明 书 5/15 页 其中,wlrdk(p)为数据点p的k-局部可达密度,w(o)表示Neik(p)中数据点o的所有 重复数据点的个数,将数据点p的k-局部可达密度变换为: 基于k-局部可达密度,数据点p的wlof值是: 其中|Neik(p)|表示集合Neik(p)中点的个数。 本发明第二方面提供了一种输变电运检数据质量评估系统,包括: 获取模块,获取输变电设备运检数据; 评估模型建立模块,针对获取输变电设备运检数据分别从多个维度建立评估模型 进行数据质量的评估,其中,维度包括有效性、冗余度、信息量、完整性以及准确性;基于无 效比建立数据有效性评估模型;基于重复率建立数据冗余度评估模型;基于逻辑斯蒂增长 模型建立数据信息量评估模型;基于相对缺失信息量建立数据完整性评估模型;基于加权 局部因子算法以及异常度建立准确性模型。 本发明采用的技术方案包括以下技术效果: 1、本发明有效解决由于现有数据质量评价单一、不够全面的问题,有效的提高了 输变电设备运检数据质量的综合评估效果以及评估可靠性。 2、本发明技术方案从有效性、冗余度、信息量、完整性以及准确性等维度分别建立 评估模型,用于评价输变电设备运检数据质量,提高了评估的可靠性以及全面性。 3、本发明技术方案一方面可以为数据清洗前后进行比较评估,可以得到数据质量 得分平均提升率,另一方面也可以方便发现数据采集过程中存在的问题。 4、本发明可以基于Hadoop平台实现自动化、可配置数据质量评估,在数据清洗和 预处理之后,针对原数据和预处理后数据,进行自动化的数据质量评估,可以通过软件进行 一键式操作,可以得到详细的质量评估五维指标得分,为输变电运检数据质量评估提供可 靠、全面的参考。 应当理解的是以上的一般描述以及后文的细节描述仅是示例性和解释性的,并不 能限制本发明。 附图说明 为了更清楚说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单介绍,显而易见的,对于本领域普通技术人员而言,在 10 CN 111597510 A 说 明 书 6/15 页 不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图1为本发明方案中实施例一方法的流程示意图; 图2为本发明方案中实施例一中无效数据示例图; 图3为本发明方案中实施例一中无效比和有效性得分的关系示意图; 图4为本发明方案中实施例一中重复记录一示意图; 图5为本发明方案中实施例一中重复记录另一示意图; 图6为本发明方案中实施例一中重复率与冗余度得分的关系示意图; 图7为本发明方案中实施例一中C2H6含量示意图; 图8为本发明方案中实施例一中平均信息量与信息量得分的关系示意图; 图9为本发明方案中实施例一中相对缺失信息量与完整性得分的关系示意图; 图10为本发明方案中实施例一中异常度与准确性得分的关系示意图; 图11为本发明方案中实施例一中输变电设备运检数据质量评估示意图; 图12为本发明方案中实施例一中数据质量评估雷达示意图; 图13为本发明方案中实施例一中某主变设备在线监测数据质量评估结果示意图; 图14为本发明方案中实施例一中某主变设备运行数据质量评估结果示意图; 图15为本发明方案中实施例二系统的结构示意图。