
技术摘要:
本发明公开了一种基于生成对抗网络的红外图像超分辨率重建方法,属于计算机视觉领域。该方法对已有的算法SRGAN的生成网络及损失函数两个方面进行改进:在生成网络结构的改进中,生成网络结合传统双三次插值的方法;在损失函数的改进中,为了在有好的视觉效果的同时获得 全部
背景技术:
红外成像指的是一种使用探测器来接收目标物体反射的红外线并且通过光电转 换来得到红外图像的一种技术。红外成像技术在民用、军事等领域都有诸多应用。红外成像 技术具有穿透雾霾烟尘能力强,探测距离远,受外部光线影响小,对物体热辐射敏感等优 点。凭借这些优点红外成像技术既可以在质量检测和安全检测等领域得到广泛应用,又可 以在烟雾遮挡或者光照条件差的环境中辅助可见光成像,全天时地工作。红外图像的分辨 率主要由红外成像系统中的核心器件红外探测器来决定。红外探测器的成像分辨率远远低 于可见光探测器,这也导致了红外成像存在空间分辨率低、信噪比低、对比度弱等缺点。这 些缺点制约着红外成像技术的发展,使其无法应用到对图像质量要求高的领域。 红外图像超分辨率重建技术是指:通过计算机软件与图像处理算法相配合的方 式,实现将现有的低质量及低分辨率红外图像(或运动序列)转换为高质量及高分辨率红外 图像(或运动序列)的技术。目前超分辨率技术在军事、医疗和公共安全等领域中都拥有者 广泛的应用,例如:卫星成像、医学图像处理、视频监控与刑侦分析等。 近年来,随着人工智能的大力发展,使得针对深度神经网络的研究产生了飞跃式 的进展。深度学习技术与许多学科领域的结合都取得了引人注目的成果。在计算机视觉与 图像处理领域,将深度学习技术应用于红外图像超分辨率重建问题已成为当下及未来的一 个主要的研究方向。 这类算法不需要使用插值处理操作或通过多幅图像之间的映射关系以获取高分 辨率图像,其凭借着优越的重建效果与理想的重建速率,迅速成为图像超分辨率重建领域 研究的热点——通过卷积神经网络将更多关键的图像像素信息作为网络模型的输入,利用 更加丰富的先验知识作为条件约束,最终实现效果更加出色的超分辨率重建。因此,研究基 于深度学习的图像超分辨率重建算法有着重要且深远的现实意义与应用价值。 目前为止,虽然基于卷积神经网络的超分辨率重建方法在效果上与传统方法相比 有了大幅度的提升,但是鉴于模型对于超参数的变化较为敏感,以及在训练期间网络不稳 定导致训练困难等问题的存在,给超分辨率重建任务的顺利完成带来了一定的难度。因此, 有学者们试图寻找更加合适的模型以解决这些问题。作为当下深度学习技术与图像超分辨 率重建算法相结合的生成模型中,获得图像视觉效果最为显著的基于生成对抗网络的超分 辨率模型,以感知损失函数作为优化目标,获得了具有真实自然视觉效果的高分辨率图像。 但是,受限于图像超分辨率重建问题自身的病态性以及生成模型结构设计上的不足与缺陷 等原因,使得如何将生成图像的细节特征更加真实而清晰的呈现出来成为目前基于生成对 抗网络的超分辨率重建技术尚待改进的重要环节。 2017年Twitter公司的Ledig等人在CVPR上发表的论文首次将生成对抗网络应用 3 CN 111583113 A 说 明 书 2/5 页 于超分辨率重建问题中。论文名为SRGAN:Photo-Realistic Single Image Super- Resolution Using a GenerativeAdversarial即基于生成对抗网络的图像超分辨率重建 模型。SRGAN由生成网络、判别网络和损失函数三部分组成。生成网络用来生成高分辨率图 像,判别网络则负责判断输入的图像是原始的高分辨率图像还是由生成网络生成的高分辨 率图像。同时对两个网络进行训练,两个网络之间属于对抗关系,生成网络要尽可能地生成 可以骗过判别网络的重建图像,判别网络则要努力判别出由生成网络重建出的“假图像”, 最终达到生成网络可以重建出判别网络无法区分的重建高分辨率图像的目的。 生成对抗网络训练的最终目标是得到生成网络中的生成函数G,该函数的功能是 估计输入低分辨率图像与高分辨率图像之间的对应关系。假设输入的低分辨率图像为ILR, 生成的高分辨率图像为ISR,原始的高分辨率图像为IHR,其中LR表示低分辨率、SR表示超分 辨率、HR表示高分辨率。利用生成网络的参数集θG来训练前馈卷积神经网络Gθ,其中θG= {W1:d;b1:d}表示深度为d的卷积神经网络中利用损失函数lSR优化所获取的权重W和偏置b,给 定大小为N的训练数据集 以及与之对应的 那么网络训练中主要优化的目 标是: 基于生成对抗网络理论基础,还将训练一个判别网络的输出结果 和生成网络 的输出结果 同时以交替的方式优化,从而解决对抗的最小-最大问题: 其中 代表判别网络的输出结果,即输入的高分辨率图像是原始高分辨率图像 的概率, 代表生成网络的输出结果,也就是重建的高分辨率图像,LGAN表示博弈过程, Ptrain(ILR)表示训练样本分布,P (ILRG )表示生成样本的分布,θG表示生成网络的参数集,θD表 示判别网络的参数集,E表示平均期望。公式的主要思想是训练生成网络生成图像去欺骗判 别网络,然后训练判别网络来区分生成高分辨率图像和原始高分辨率图像,这种训练方式 可以促进生成网络学习重建与原始图像高度相似的图像,使得判别网络难以区分,最终生 成在感知方面更有优势的图像。训练生成网络的最终目的是使公式的值最小,而判别网络 的最终目标则是使公式的值最大,因此整个训练过程就是生成网络和判别网络的博奕过 程。 SRGAN算法的主要特点是利用残差网络使网络性能得到了提升,解决了梯度消失 问题,并且使用感知损失函数使得重建得到的高分辨率图像具有更真实的视觉效果。但是 它的缺点是低频区域会存在伪影即不存在的纹理,高频区域放大后细节模糊,生成图像的 客观评价指标峰值信噪比PSNR和结构相似度SSIM太低,与主观视觉印象不吻合。
技术实现要素:
本发明的目的是提出一种基于生成对抗网络的红外图像超分辨率重建方法,该方 法对已有的算法SRGAN进行改进,分别从SRGAN的生成网络及损失函数两个方面进行改进: 4 CN 111583113 A 说 明 书 3/5 页 在生成网络结构的改进中,生成网络结合传统双三次插值的方法;在损失函数的改进中,为 了在有好的视觉效果的同时获得高的客观评价指标(峰值信噪比和结构相似度),在生成网 络的损失函数中加入逐像素均方误差损失。改进后的算法与原始SRGAN算法相比,重建后的 图像的低频区域更加平滑,减少伪影,高频细节更加清晰,并且客观评价指标峰值信噪比 PSNR和结构相似度SSIM都有提高; 本发明采用的技术方案如下: S1、选择一个训练集,将低分辨率图像输入生成网络,输出生成的高分辨率图像。 S1.1、将低分辨率图像输入到一个卷积层中,输出线性特征图。 S1.2、将线性特征图输入修正线性单元即激活层,得到非线性的特征图。 S1.3、将非线性特征图经过6个具有相同结构的残差网络模块,得到高频细节特征 图。每个残差网络模块的构成分别是卷积层,用于提取输入特征的特征图;然后是批处理归 一化层,它能够防止梯度消失;接着是修正线性单元即ReLU激活函数层,增加网络的非线 性,防止梯度消失;然后再是卷积层、批处理归一化层;最后使用跳跃连接将低维度的图像 特征与高维度的图像特征逐像素相加。 S1.4、将得到的高频细节特征图依次输入两个反卷积层,提高输出图像的分辨率, 得到放大的特征图。每个反卷积层能够将图像放大2倍,使用两个反卷积层将图像放大4倍。 S1.5、将放大的特征图输入到最后一个卷积层,将通道数降到RGB通道,输出RGB图 像。 S1 .6、将RGB图像与低分辨率图像通过双三次插值算法重建后的高分辨率图像逐 像素相加,输出生成的高分辨率图像。 S2、将生成的高分辨率图像与原始高分辨率图像一起输入到判别网络中,判别网 络输出0或1表示能否判别出图像为生成的高分辨率图像,其中1表示将图像判别为原始高 分辨率图像,即判别不出图像为生成的高分辨率图像,直到全部图像都判别为原始高分辨 率图像,训练结束,得到训练好的生成网络;0表示将图像判别为生成的高分辨率图像,即能 够判别出图像为生成的高分辨率图像,进行步骤S3。 S3、更新生成网络的参数,使损失函数最小化,返回步骤S1,使用更新后的生成网 络替换S1中的生成网络。 所述损失函数计算表达式如下: lG(θG)=lMSE(θG) αlP(θG) βlA(θG) 其中,α、β为权重系数,lMSE(θG)为逐像素的均方误差损失,其中θG表示生成网络的 参数集,N为训练样本的数量,i=1,2,3,...N, 表示生成网络生成的高分辨率图 像,其中 为输入生成网络的低分辨率图像, 为对应的原始高分辨率图像,LR表示低分 5 CN 111583113 A 说 明 书 4/5 页 辨率图像,HR表示高分辨率图像,lP(θG)为感知损失, 表示原始高分辨率图像经过 VGG网络第j个卷积层的激活值, 表示生成网络生成的高分辨率图像 经过VGG网络第j个卷积层的激活值,lA(θG)为对抗损失, 表示判别网络输出 的概率值,该概率值表示输入的高分辨率图像是原始高分辨率图像的概率。 逐像素的均方误差损失用于保留图像的低频部分,感知损失和对抗损失用于恢复 图像的高频信息。从上式中可以看出,逐像素均方误差损失计算的是生成高分辨率图像与 原始高分辨率图像对应像素的欧几里得距离,对数值差异较大的异常像素点更加敏感,难 以捕捉图像感知上的区别,因此将逐像素均方误差作为目标函数的网络模型生成的图像趋 于平滑。像素是数字图像的最小单位,减小像素间的差距能够更加快速、有效地保证图像信 息的准确性,所以逐像素均方误差损失虽然会丢失图像的高频信息,但能够很好地恢复图 像的低频内容。 S4、将待重建的低分辨率图像输入训练好的生成网络中,得到输出的高分别率图 像。 本发明采用双三次插值法的核心思想是要对待插值像素点周围4×4邻域内的16 个已知像素点的像素值进行线性加权,获得最终待插值像素点的像素值。双三次插值法既 解决了边缘锯齿和马赛克现象,又保留了图像的高频信息。基于插值的图像超分辨率重建 算法相对于其他算法核心思想和计算过程都比较简单,经常用它将图像放大到所需尺寸。 因此本发明将基于传统双三次插值的方法与SRGAN的生成网络的残差模块相结合。首先通 过双三次插值算法得到重建后图像的基本轮廓;然后采用SRGAN算法的生成网络的残差网 络思想学习图像的细节特征,能够补偿图像的高频细节纹理信息;最后将基本轮廓和高频 细节信息相结合得到高质量的高分辨率图像。 SRGAN算法结合对抗损失与感知损失,令重建图像具有更加逼真的视觉效果,但重 建图像的平滑区域会受到锐化纹理的影响,且重建图像的峰值信噪比PSNR和结构相似度 SSIM比其他方法低,客观评价指标不好。本发明联合优化均方误差损失、感知损失和对抗损 失函数,其中新加入的逐像素均方误差损失是为了提高客观评价指标,SRGAN原有的感知损 失和对抗损失函数是为了提高高频细节,有更真实的效果。重建图像在低频内容保留、高频 边缘锐化以及局部纹理恢复等方面均具有较均衡的良好性能和表现。 附图说明 图1为算法设计流程图。 图2为输入的待重建的低分辨率红外图像。 图3为输出的重建后的高分辨率红外图像。