技术摘要:
一种数据异常检测方法,所述方法包括:获取设备指标数据;对设备指标数据进行过滤,获得第一过滤数据;若第一过滤数据中存在第一异常数据,提取第一异常数据的三维点坐标特征;若三维点坐标特征中存在离散点坐标特征,确定离散点坐标特征对应的离散异常数据;若第一异 全部
背景技术:
目前,随着计算机技术的发展,由大量主机以及网络交换机等设备组成的云平台 得到大规模的应用。为了确保云平台可以稳定地提供服务,需要对云平台的设备的一些指 标数据进行实时监控,但在实践中发现,使用无监督的学习算法进行异常检测,容易出现误 告警问题,异常检测的准确率不高,而使用基于神经网络算法的模型进行异常检测,需要消 耗的计算机资源太多。因此,如何提高异常检测的准确率以及减少计算机资源的消耗是一 个亟需解决的技术问题。
技术实现要素:
鉴于以上内容,有必要提供一种数据异常检测方法,能够提高异常检测的准确率 以及减少计算机资源的消耗。 本发明的第一方面提供一种数据异常检测方法,所述方法包括: 获取需要进行异常检测的设备指标数据,以及获取数据过滤区间; 根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一过滤数据; 若所述第一过滤数据中存在第一异常数据,提取所述第一异常数据的三维点坐标 特征; 若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点坐标特征对应的 离散异常数据; 若所述第一异常数据中存在第二异常数据,使用训练好的异常数据检测模型,对 所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其中,所述异常检测 模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。 在一种可能的实现方式中,所述获取数据过滤区间包括: 获取用户设置的数据过滤区间;或 获取历史统计数据,并根据所述历史统计数据,确定数据过滤区间。 在一种可能的实现方式中,所述根据所述数据过滤区间,对所述设备指标数据进 行过滤,获得第一过滤数据之后,所述方法还包括: 针对每个所述第一过滤数据,根据拉依达准则,判断所述第一过滤数据是否属于 第一预设数据区间; 若所述第一过滤数据属于第一预设数据区间,根据高斯分布模型,判断所述第一 过滤数据对应的密度估计值是否小于预设密度估计阈值; 若所述第一过滤数据对应的密度估计值大于或等于预设密度估计阈值,使用指数 加权移动平均法,判断所述第一过滤数据对应的指数加权平均值是否属于第二预设数据区 4 CN 111581046 A 说 明 书 2/11 页 间; 若所述第一过滤数据对应的指数加权平均值不属于第二预设数据区间,确定所述 第一过滤数据中存在第一异常数据;或 若所述第一过滤数据对应的指数加权平均值属于第二预设数据区间,确定所述第 一过滤数据未存在第一异常数据。 在一种可能的实现方式中,所述提取所述第一异常数据的三维点坐标特征之后, 所述方法还包括: 将所述第一异常数据的三维点坐标特征添加至坐标特征集合中; 使用基于密度的聚类算法,对所述坐标特征集合中的特征进行聚类分析,获得每 个所述三维点坐标特征对应的至少一个类别; 根据每个所述三维点坐标特征对应的至少一个类别,统计每个所述三维点坐标特 征对应的类别数量; 判断所有所述三维点坐标特征中是否存在类别数量小于预设类别数量阈值的三 维点坐标特征; 若所述三维点坐标特征中存在类别数量大于或等于预设类别数量阈值的三维点 坐标特征,将类别数量小于预设类别数量阈值的三维点坐标特征确定为离散点坐标特征; 或 若所述三维点坐标特征中未存在类别数量小于预设类别数量阈值的三维点坐标 特征,确定所述三维点坐标特征中未存在离散点坐标特征。 在一种可能的实现方式中,所述确定所述离散点坐标特征对应的离散异常数据之 后,所述方法还包括: 使用主成分分析算法,对所述第一异常数据进行降维,获得降维数据; 对所述降维数据进行逆向计算,获得目标数据; 判断所述目标数据与所述第一异常数据的差值是否大于预设差值阈值; 若所述还原数据与所述第一异常数据的差值大于预设差值阈值,确定所述第一异 常数据中存在第二异常数据;或 若所述还原数据与所述第一异常数据的差值小于或等于预设差值阈值,确定所述 第一异常数据中未存在第二异常数据。 在一种可能的实现方式中,所述提取所述第一异常数据的三维特征包括: 获取所述第一异常数据的差分值、当前值以及指数加权移动平均值; 计算所述当前值与所述指数加权移动平均值的目标差值; 将所述差分值、所述当前值以及所述目标差值确定为所述第一异常数据的三维点 坐标特征。 在一种可能的实现方式中,所述获取需要进行异常检测的设备指标数据之前,所 述方法还包括: 获取用于训练的第一样本数据; 使用无监督的学习算法对所述第一样本数据进行筛选,获得第二样本数据; 使用所述第二样本数据进行训练,获得训练好的异常检测模型。 本发明的第二方面提供一种数据异常检测装置,所述装置包括: 5 CN 111581046 A 说 明 书 3/11 页 获取模块,用于获取需要进行异常检测的设备指标数据,以及获取数据过滤区间; 过滤模块,用于根据所述数据过滤区间,对所述设备指标数据进行过滤,获得第一 过滤数据; 提取模块,用于若所述第一过滤数据中存在第一异常数据,提取所述第一异常数 据的三维点坐标特征; 确定模块,用于若所述三维点坐标特征中存在离散点坐标特征,确定所述离散点 坐标特征对应的离散异常数据; 检测模块,用于若所述第一异常数据中存在第二异常数据,使用训练好的异常数 据检测模型,对所述第二异常数据和所述离散异常数据进行异常检测,获得检测结果,其 中,所述异常检测模型训练时所使用的样本数据是经过无监督的学习算法筛选的数据。 本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述 处理器用于执行所述存储器中存储的计算机程序时实现所述的数据异常检测方法。 本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存 储有计算机程序,所述计算机程序被处理器执行时实现所述的数据异常检测方法。 由以上技术方案,本发明中,可以通过拉依达准则、指数加权移动平均法以及高斯 模型这些简单的无监督的学习算法对设备指标数据进行初步的判定,获得第一异常数据, 其中,第一异常数据中存在很多误报的正常数据,可以通过基于密度的聚类算法以及主成 分分析算法这些相对高级的无监督的学习算法对第一异常数据进行进一步的判定,获得第 二异常数据,其中,第二异常数据中依然存在误报的正常数据,通过两次的判定获得的第二 异常数据的数量已经是很少了的,此外,这整个过程中采用的无监督的学习算法(如拉依达 准则、高斯模型以及指数加权移动平均法、密度的聚类算法等)比较简单,所消耗的计算机 资源较少,而且异常检测模型只需要对少量的数据进行检测,也节约了计算机资源,另外, 异常检测模型的训练样本是通过无监督的学习算法筛选的样本,在训练样本中不会出现异 常数据样本的数量过少的问题,从而提高了异常检测模型的准确率。 附图说明 图1是本发明公开的一种数据异常检测方法的较佳实施例的流程图。 图2是本发明公开的一种数据异常检测装置的较佳实施例的功能模块图。 图3是本发明实现数据异常检测方法的较佳实施例的电子设备的结构示意图。