logo好方法网

一种空气质量检测数据缺失的补全方法及补全装置

技术摘要:
本发明公开了一种空气质量检测数据缺失的补全方法及补全装置,该方法包括:获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气质量检测数据集;根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判别器模型;将构建好的基  全部
背景技术:
数据缺失是空气质量检测数据经常面临的问题,出现缺失的主要原因可以包括: (a)检测传感器工作状态不稳定:现场环境因素或人为原因导致空气质量检测传 感器在某些时间段内没有正常工作,从而造成数据缺失; (b)异常监测数据:检测过程中,由于传感器精准度、生产异常波动等原因,常常存 在异常监测数据,此类“坏数据”与实际生产状况不符,需要剔除,而剔除的过程相当于引入 了数据缺失。 空气质量检测数据的缺失会造成数据信息不完全,直接影响到后期的数据分析。 因此,需要对空气质量检测数据中的缺失数据进行补全以提高数据的完整性,从而提高后 期空气质量检测数据分析的质量。 众所周知,针对存在数据缺失问题的空气质量检测数据进行数据补全是提高数据 完整性的有效途径。但数据缺失的缺失程度的不同和缺失模式的不同,使得数据缺失情况 呈现多样化,使得传统补全方法无法有效的补全缺失数据。目前针对缺失数据补全问题,国 内外学者已经做出了一些工作,但这些工作还存在局限性:(1)数据补全方法补全效果有 限;(2)数据补全方法无法有效补全缺失情况多样化下的缺失数据。
技术实现要素:
本发明的目的是提供一种空气质量检测数据缺失的补全方法及补全装置,以解决 传统补全方法难以处理数据缺失情况呈现多样化的问题,针对存在数据缺失问题的空气质 量检测数据进行有效的补全,尽可能地提高数据完整性。 为了达到上述目的,本发明采用如下技术方案: 第一方面,本发明实施例提供一种空气质量检测数据缺失的补全方法,包括: 获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数据缺失的空气 质量检测数据集; 根据所获取的原始数据,分别构建基于变分自编码器的生成器模型和构建特征判 别器模型; 将构建好的基于变分自编码器的生成器模型和特征判别器模型进行结合,利用原 始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器的重构矩阵对输 入原始数据进行数据补全,得到完整数据。 进一步地,所述获取原始数据集包括: 获取由空气质量检测传感器检测到的空气质量数据集,其中,空气质量数据出现 数据缺失是由于传感器检测出现故障使得检测数据存在遗漏的现象。 4 CN 111581189 A 说 明 书 2/6 页 进一步地,模型构建完成后,利用批量训练方法重复训练基于变分自编码器的生 成器模型和特征判别器模型,直到达到模型的最大迭代次数。 进一步地,所述生成器模型和判别器模型均为多种激活函数组成的深层神经网络 结构。 进一步地,将原始数据对应的缺失矩阵作为提示矩阵,利用提示矩阵为特征判别 器模型提供部分缺失状态信息,驱使特征判别器模型更加关注于部分缺失数据的补全效 果。 进一步地,依据生成器模型中的变分自编码器损失函数以及判别器模型对生成器 模型生成数据的判别结果反馈,训练生成器模型,生成器模型的训练过程如下: 1)首先,基于原始数据矩阵大小生成随机高斯噪声矩阵,并利用随机高斯噪声矩 阵初始化原始数据矩阵,得到噪声补全矩阵; 2)其次,将噪声补全矩阵输入到基于变分自编码器的生成器模型中; 3)最终,生成器模型通过最小化生成器损失函数进行模型训练,得到当前生成器 模型的最优模型参数,并通过变分自编码器的重构矩阵对输入原始数据进行数据补全。 进一步地,所述生成器模型的损失函数包括:判别器模型的判别结果反馈函数、变 分自编码器损失函数中的重构损失函数以及变分自编码器中对编码器模块的噪声正则项。 进一步地,所述特征判别器模型依据补全矩阵和提示矩阵作为输入,预测对应的 缺失矩阵。判别器模型通过最小化预测缺失矩阵误差的损失函数进行模型训练,得到当前 最优特征判别器模型。 第二方面,本发明实施例提供一种空气质量检测数据缺失的补全装置,包括: 获取模块,用于获取存在数据缺失问题的原始数据,其中,所述原始数据为存在数 据缺失的空气质量检测数据集; 构建模块,用于根据所获取的原始数据,分别构建基于变分自编码器的生成器模 型和构建特征判别器模型; 生成模块,用于将构建好的基于变分自编码器的生成器模型和特征判别器模型进 行结合,利用原始数据对结合后的模型进行优化训练,并通过生成器模型中变分自编码器 的重构矩阵对输入原始数据进行数据补全,得到完整数据。 第三方面,本发明实施例提供一种设备,包括: 一个或多个处理器; 存储器,用于存储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理 器实现如第一方面所述的方法。 第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序, 其特征在于,该程序被处理器执行时实现如第一方面所述的方法。 根据以上技术方案,本发明实施例是一个空气质量检测数据缺失的补全框架。在 基于变分自编码器的生成器模型中,本发明将变分自编码器作为变分生成对抗网络中的生 成器模型,利用变分自编码器优质的生成效果以及对噪声数据的鲁棒性,进一步增强生成 器模型面对不同程度数据缺失情况下的缺失数据的补全效果和补全鲁棒性;在特征判别器 模型中,本发明将生成器补全缺失数据后的完整数据作为输入,并输出预测补全数据中所 5 CN 111581189 A 说 明 书 3/6 页 有样本的每个特征属于真实特征的概率;在训练过程中,本发明采用批量训练方法对变分 生成对抗网络进行网络训练,使得变分生成对抗网络可以有效的补全缺失数据。 附图说明 此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中: 图1是本发明实施例的一种空气质量检测数据缺失的补全方法的流程图; 图2是本发明的模型系统框图; 图3是基于变分自编码器的生成器模型的模型框架图; 图4是本发明实施例的一种空气质量检测数据缺失的补全装置的框图。
分享到:
收藏