基于变分自编码器的图像异常检测方法-好方法网

技术摘要：
本发明公开了一种基于变分自编码器的图像异常检测方法，具体是融合变分自编码器和支持向量数据描述的异常检测方法，解决了现有技术中异常检测与特征提取两个阶段分离，异常检测性能受限以及传统异常检测无法应对高维、大规模异常检测任务的问题。实现步骤包括：图像数全部
背景技术：
异常检测的任务是识别与期望不一致的数据，通常将这种不一致的数据定义为异常。异常检测在很多领域都承担着重要的责任。在已研究开发的异常检测技术中，涉及到信用卡欺诈检测、网络入侵检测、医学诊断等应用。本发明致力于解决关于图像的异常检测问题。应用于图像异常检测的方法，分为传统异常检测技术和深度异常检测技术。传统的异常检测技术有一类支持向量机方法等。等人在论文“Estimating the Support of a High Dimensional Distribution”中提出一类支持向量机方法(OC-SVM)，该方法可以通过构造正类数据的超平面模型并将超平面另一侧的数据划分为异常类来获得理想的异常检测结果，该方法存在的不足之处是，结果很大程度上取决于选择正则化参数和核函数，当数据量巨大时，内存复杂度很高，限制了该方法在大规模图像异常检测任务中的应用。以自编码器及变分自编码器为代表的深度异常检测方法，在图像领域中的性能普遍优于传统的异常检测方法，通常可以分为两类。第一类深度异常检测模型通常是在更好的实现重构输入的目标下进行特征的提取的，提取到特征后再结合传统的异常检测方法，如OC-SVM，进行异常检测，称之为混合模型。该类方法存在的不足之处是，由于使用通用的损失函数来代替定制化的异常检测目标，使得异常检测的目标完全无法影响到网络提取到的隐层特征，使得该方法往往是次优的。第二类则是不借助于传统异常检测方法，直接将重构误差作为异常分数，来进行异常检测。这一类方法存在的不足在于假设所有的正常样本都服从相似的分布，相似的正常样本重构误差较小，但不相似的正常样本则由于重构误差大而被认为是异常样本，缺少对正常样本多样性的包容。综上，传统异常检测方法应用在图像领域会由于图像数据集数据量过大而不能有良好的异常检测效果，以编码器以及变分自编码器为代表的深度异常检测方法在应对异常检测任务时，由于缺少定制的异常检测目标或是缺少对正常样本多样性的包容，往往不能充分发挥深度模型的性能。
技术实现要素：
本发明的目的在于针对上述现有技术的不足，提出一种具有针对性的对正常样本的多样性更为包容的可以应用于大规模检测的基于变分自编码器的深度图像异常检测方法。本发明是一种基于变分自编码器的图像异常检测方法，其特征在于，包括有如下步骤： 6 CN 111598881 A 说　明　书 2/15 页 (1)图像数据采集：根据异常检测的任务采集待检测的图像数据，并对正常类图像数据和异常类图像数据进行区分，区分标准依照异常检测的任务而定，将正常类图像数据给定标签0，将异常类图像数据给定标签1； (2)数据集划分与数据预处理：将图像数据根据异常检测任务的需求划分为训练集和测试集，训练集中只包含正常类图像，测试集中包含正常类图像和异常类图像；将划分好的训练集图像数据和测试集图像数据都处理成统一的格式； (3)构造以变分自编码器为基础的异常检测模型：变分自编码器包括编码器和解码器两部分网络,在代价函数的约束下，利用编码器提取训练集中所有样本的特征，通过解码器将提取到的特征尽量重构成与原始样本相似的新样本；以变分自编码器为基础的异常检测模型融合支持向量数据描述，采用支持向量数据描述对变分自编码器的编码器提取到的特征φ(xi；W)进行距离上的约束进而聚集在特定的区域；为此首先需要搭建网络实现变分自编码器的编码器和解码器部分，再构建可以联合优化变分自编码器和支持向量数据描述的异常检测模型的代价函数L，以实现异常检测模型的构造，代价函数具体的构建如下： (3a)计算训练集中每一个正常图像样本对应的特征φ(xi；W)，其中，φ(xi；W)是训练集中第i个正常图像样本对应的特征，i∈[1,n],n为训练集中正常图像样本的总个数； (3b)由(3a)中得到的每一个正常图像样本对应的特征φ(xi；W)计算训练集中的每一个正常图像样本对应的重构样本其中，是第i个正常图像样本对应的重构样本，i ∈[1,n],n为训练集中正常图像样本的总个数； (3c)计算训练集中所有的正常图像样本x1～xn的特征的均值c； (3d)计算训练集中的每一个正常图像样本对应的特征φ(xi；W)到所有的特征的均值c的距离di,其中，di是训练集中第i个正常图像样本xi的特征φ(xi；W)到所有特征的均值c的距离，i∈[1,n]，n为训练集中正常图像样本的总个数； (3e)利用每一个正常图像样本对应的特征φ(xi；W)及其对应的重构样本训练集中所有的正常图像样本的特征的均值以及训练集中每一个正常图像样本对应的特征φ (xi；W)到所有的特征的均值c的距离，构建联合优化变分自编码器和支持向量数据描述的异常检测模型的代价函数L，变分自编码器的编码器网络和解码器网络以及代价函数L共同完成基于变分自编码器的异常检测模型的构造； (4)训练异常检测模型：用训练集对基于变分自编码器的异常检测模型进行训练，训练好的异常检测模型的输入是图像样本，输出是其对应的重构样本，训练好的异常检测模型包括编码器和解码器两部分，后续步骤中使用训练好的异常检测模型中的编码器作为特征提取器来提取特征，根据特征判断样本是否为异常样本； (5)根据训练好的模型计算区分正常图像数据与异常图像数据的阈值：得到训练好的异常检测模型后，利用编码器网络计算训练集中每一个正常图像样本的特征以及训练集所有图像样本的特征的均值c*；计算训练集中每一个图像样本的特征到上述均值的距离 s(xi)，将此距离定义为每一个图像样本的异常分数；将所有图像样本的异常分数s(xi)按照从小到大的顺序进行排序，取其第90百分位数作为区分正常图像数据与异常图像数据的阈值threshold； (6)使用训练好的异常检测模型判断待测的测试集图像是否为异常图像：使用训 7 CN 111598881 A 说　明　书 3/15 页练好的异常检测模型提取待测的测试集图像的特征φ(xj；W)，j∈[1,m],其中m是测试集中图像样本的总个数。计算φ(xj；W)到步骤(5)中计算得到的均值c*的距离s(xj)，若该距离s (xj)大于步骤(5)中得到的阈值threshold，则认定为异常图像，否则为正常图像，最终得到异常检测的结果。本发明是基于变分自编码器的对所提取的特征进行具有更强针对性的约束的融合方法，联合优化提取特征与异常检测的目标函数，使提取的特征更适合做异常检测，异常检测能力更强，且内存复杂度低，可以应用于高维数据以及大规模检测任务中。本发明与现有技术相比，具有以下优点：提取的特征更适合做异常检测：本发明是基于变分自编码器的图像异常检测方法，融合支持向量数据描述对变分自编码器提取到的特征做约束，使其聚集成超球体。与提取特征后再进行异常检测的混合模型相比，异常检测与提取特征不再是分离的步骤，特征的学习是在异常检测的目标直接驱动下进行的，使得本发明中的编码器提取到的特征更适合做异常检测。对正常样本的多样性更为包容：本发明通过对变分自编码器提取到的各种正常数据的特征做距离上的约束，使得视觉上并不相似的各种正常样本大部分相互靠近，会减少出现因为不相似造成较大的重构误差从而被认定为异常的情况。内存复杂性低，可用于大规模异常检测任务：本发明仅需要网络参数就可以建立一个异常检测模型，不需要储存支持向量或者储存其他的数据就可以进行预测，即使训练样本数量很大时，内存复杂性仍然不高，对于大量的测试的样本都可进行快速的测试，适用于大规模检测任务。附图说明图1是本发明的实现流程框图。

下载此资料需消耗2积分，

相关推荐