一种基于CGAN的图像数据平衡和分类方法-好方法网

技术摘要：
本发明公开了一种基于CGAN的图像数据平衡和分类方法，主要包括两个阶段，第一阶段为生成模型训练，包括生成器G和判别器D的训练。第二阶段为分类器训练阶段，其步骤包括：加载第一阶段训练过程中判别器D训练好的模型，在判别器D的神经网络基础上，新增一个输出层对输入全部
背景技术：
机器学习和深度学习作为时下最为热门的研究内容，在语音识别、自然语言处理、计算机视觉、图像与视频分析等诸多领域的应用取得了巨大成功。在传统流量分类手段失效后，也有学者开始尝试将机器学习算法结合流统计特征或时序特征来进行流量识别和分类，并取得一定进展。然而无论是机器学习还是深度学习，都离不开大量数据进行特征学习。在流量数据集采集过程中，一些冷门应用往往很难采集到大量流量，这就导致在制作数据集时经常会出现样本不平衡问题，即热门应用样本数量远大于非热门应用。在使用不平衡数据训练分类模型时，小样本数据受限于数据量，模型较难准确学习到小样本类别的特征，从而造成小样本分类性能下降。因此对不平衡数据集的解决方法进行研究对机器学习、深度学习等具有重要意义。
技术实现要素：
发明目的：为了克服现有技术中存在的不足，本发明提供一种基于CGAN的数据平衡和分类方法：Packet CGAN，该方法基于条件生成对抗网络CGAN提出了Packet CGAN网络，通过小类别流量图像样本生成的方式来平衡数据集，并借助CNN卷积神经网络对输入流量数据进行分类。该网络的训练主要包括两个阶段，第一阶段为生成模型训练，其步骤包括：从数据集中读取真实数据X和标签y，将标签及随机噪声z送入生成器G，将G的输出结果和X 送入判别器D，交替训练G和D直到网络达到纳什平衡状态。其中生成器G的主要作用为生成流量图像样本，判别器D的主要作用为判断输入样本是否为真实数据。第二阶段为分类器训练阶段，其步骤包括：加载第一阶段训练过程中判别器D训练好的模型，在D的神经网络基础上，新增一个输出层对输入进行分类，以试图解决不平衡数据集对深度学习和机器学习带来的影响。技术方案：为实现上述目的，本发明采用的技术方案为：一种基于CGAN的数据平衡和分类方法：Packet CGAN主要分为两个阶段，第一阶段包括以下步骤：步骤一、加载流量图像数据集，读取真实数据及对应标签，分别用(b,28 ,28)和 One-Hot Encoding编码的(b，10)矩阵表示，其中b为一次迭代过程中读取图像的数量。步骤二、对随机噪声(b，100)和样本标签进行矩阵拼接，将得到的结果送入生成器，生成器包含一个输入输出层、一个全连接层和两个反卷积层，最终经过激活函数后，得到b个生成图像数据，其大小为28*28。步骤三、将真实图像数据和步骤二中得到的生成图像数据分别送入判别器，判别 3 CN 111553424 A 说　明　书 2/4 页器包含一个输入输出层、一个全连接层、两个卷积层和一个池化层。卷积层负责对输入数据进行特征提取，池化层通过对输入数据的采样减少模型参数。最后的输出结果为输入样本来自真实数据集的概率分布。步骤四、生成器根据判别器的输出结果调整网络参数，改进生成器网络模型，使输出结果尽可能与真实数据一致。并重复上述步骤直到整个生成模型达到纳什平衡状态，即判别器无法判断出输入图像是来自真实数据集还是生成器。 Packet CGAN模型的训练第二阶段包括以下步骤：步骤一、构建一个CNN分类模型，加载第一阶段过程中判别器模型，读取其全连接层、卷积层和池化层的相关参数，新加一个全连接层用作流量图像分类。步骤二、加载流量图像数据集，读取真实图像数据及对应标签。将图像送入CNN分类模型，图像经过特征提取、池化等操作后，由输出层输出分类结果进一步地，作为本发明的一种优选技术方案：与传统CGAN方法不同，Packet CGAN 模型在生成样本的同时能实现对输入流量图像的分类。进一步地，作为本发明的一种优选技术方案：Packet CGAN模型的生成器中包含两个反卷积层和一个全连接层，反卷积层的步长为2，而传统CGAN生成器中只有一个隐藏层。进一步地，作为本发明的一种优选技术方案：Packet CGAN模型的判别器中包含一个全连接层、两个卷积层和一个池化层。卷积层的卷积核个数为4个，步长为2。池化层采用最大池化方法。而传统CGAN判别器中只有一个隐藏层。进一步地，作为本发明的一种优选技术方案：所述第一阶段步骤二中生成的样本图像大小，可由数据集中的图像大小决定或人为定义。进一步地，作为本发明的一种优选技术方案：分类模型CNN中，两个卷积层、池化层和一个全连接层的各参数来自第一阶段训练过程中判别器的网络模型。本发明采用上述技术方案，能产生如下技术效果：本发明提供一种基于CGAN的数据平衡和分类方法：Packet CGAN，利用生成对抗网络在数据增强上的优势，在训练过程中引入流量图像类别标签作为条件变量，控制生成器生成小类别流量的流量图像。将生成的流量图像与真实流量图像混合形成新的平衡数据集，从而减少样本不平衡问题对流量分类问题的影响。对传统CGAN进行改进，将判别器和生成器的隐藏层改为卷积神经网络。在CGAN达到纳什平衡后，将判别器与分类模型相连，训练一个基于CNN的流量分类模型，实习对输入流量图像的分类。本发明方法创新性的提出一种基于CGAN的数据平衡和分类方法：Packet CGAN，该方法通过新样本生成的方式，为小类别样本带来更多数据，形成新的平衡数据集，从而减少样本不平衡问题对流量分类问题的影响。同时还实现了基于CNN的流量分类模型，对输入流量图像进行分类。附图说明图1为本发明流程示意图。图2为本发明中Packet CGAN网络结构设计。图3为本发明中流量图像样本生成的效果示意图。 4 CN 111553424 A 说　明　书 3/4 页

下载此资料需消耗2积分，

相关推荐