技术摘要:
一种基于立体注意力控制的多尺度神经网络的快速显著性物体检测方法。该方法的目的是设计一个用于显著性物体检测的轻量级卷积神经网络。该方法通过一个多分支的结构来提取多尺度的卷积特征,每个分支是具有不同膨胀率的深度可分离卷积;将所有分支的卷积特征相加,用一 全部
背景技术:
显著性物体检测也被称作显著性检测,它致力于检测出自然图像中在视觉上最独 特的物体或者区域。显著性检测技术在计算机视觉中有很多应用,比如图像检索、图像分 割、物体检测、物体跟踪、场景分类、基于内容的图像编辑等。传统的显著性物体检测方法主 要依赖于手工设计的特征和先验知识,比如图像对比度、纹理特征、显著性物体经常出现在 图像中央的特性,但是这些方法通常缺乏高层的语义信息。最近,深度学习的巨大进步,使 得基于卷积神经网络的显著性检测的精度不断提高。 然而,精度的提高伴随着巨大的代价:目前基于卷积神经网络的方法通常依赖于 计算机量很大、参数很多的大网络。举例来说,Jiaxing Zhao等人在2019年ICCV会议上提出 的EGNet模型,虽然是目前精度最高的显著性检测方法之一,但EGNet模型有108兆个参数, 光存储这些参数,就需要432MB的内存空间。并且,对于336x336大小的图像, EGNet在i7- 8700K CPU上只有0.09帧/秒的速度,即便在强大的英伟达TITAN XP GPU 上,EGNet也只有 12.7帧/秒的速度。注意,一块TITAN XP GPU的额定功率大约是250W, EGNet模型在移动设 备上是不可能部署的。这使得EGNet其实很难部署到实际应用中,尤其是移动设备上。但是, 最近移动潮流兴起,比如智能手机、机器人、虚拟现实、各种智能终端等,使得显著性检测系 统在移动设备上的部署成为一个亟待解决的问题。 设计轻量级的卷积神经网络是解决上述难题的一个好方法,轻量级神经网络是指 通过一些设计技巧得到的计算量少、参数少、速度快的一类神经网络。轻量级神经网络在其 他领域内已有相关研究,比如图像分类和语义分割,比较著名的有MobileNet和ShuffleNet 等图像分类模型,而本发明则致力于设计轻量级神经网络来进行显著性物体检测。显著性 检测通常面临两个挑战:1)它同时需要高层的语义信息和底层的细节信息来定位显著性物 体并修正物体细节;2)它需要提取多尺度的信息来处理自然图像中不同大小和尺寸的显著 性物体。由于轻量级神经网络的深度通常较浅,操作经常是经过简化的,因此他们的学习和 表示能力通常不如大规模的卷积神经网络。正因为如此,直接将MobileNet和ShuffleNet用 作主干网络来设计用于显著性检测的轻量级的卷积神经网络的效果并不好。
技术实现要素:
本发明目的是解决现有的基于卷积神经网络的显著性物体检测方法计算机复杂 度太高、速度太慢、参数量太大的问题,提出一种基于立体注意力控制的多尺度神经网络的 快速显著性物体检测方法。该方法可以取得和以前方法相似的性能,但是仅有1.33兆参数, 在英伟达TITAN XP GPU上可以达到343帧/秒的速度,在i7-8700K CPU上仍具有5帧/ 秒的 3 CN 111598108 A 说 明 书 2/6 页 速度。 为了实现本发明的目的,我们首先设计了一个立体注意力控制的多尺度卷积模 块,所设计的模块在保证操作轻量的前提下,可以很好的提取多尺度的卷积特征,将该模块 堆叠起来组成一个深度卷积神经网络,可以很好地从图像中学习到高层的语义信息和底层 的细节信息,从而快速且准确地进行图像中的显著性物体检测。 本发明提供的基于立体注意力控制的多尺度神经网络的快速显著性物体检测方 法,包含如下步骤: a、设计一个立体注意力控制的多尺度卷积模块。 该模块先用多个并行的具有不同膨胀率的深度可分离卷积来对输入的图像和特 征提取多尺度的卷积特征,然后将所有分支的卷积特征通过逐元素相加的方式进行融合。 对融合后的卷积特征分别用基于通道的注意力机制和基于空间的注意力机制来求两种不 同的卷积特征的注意力,其中,基于通道的注意力机制将得到一个维度等于卷积特征通道 数乘以并行分支数的向量,基于空间的注意力机制将得到一个和卷积特征的空间大小相等 的单通道矩阵。将两种注意力以矩阵维度扩展的方式相乘,得到立体注意力图,将该立体注 意力图沿着通道维度切开,使得每个并行分支提取的卷积特征都对应一个大小相等的立体 注意力图。将每个分支提取的卷积特征分别和对应的立体注意力图相乘,最后将所有分支 相乘的结果相加,再加上该模块的输入即得到该模块的输出。 b、设计一个具有编码-解码结构的深度卷积神经网络。 所设计的卷积神经网络的编码子网络可以分为五个阶段,每个阶段先接一个步长 为2 的卷积层将输入的空间大小下采样二倍,再接若干个所设计的立体注意力控制的多尺 度卷积模块。所设计的卷积神经网络的解码子网络从编码子网络的最后一层开始,通过逐 步上采样的方式来融合编码子网络在不同阶段所提取的卷积特征,并在每次特征融合之后 预测显著性图,并加上深度监督以进行训练。 c、将待检测的彩色自然图像输入到步骤b所设计的深度卷积神经网络中,解码子 网络最后一次融合后所预测的显著性图,即是所设计的卷积神经网络的输出,该输出的显 著性图和原输入图像大小相等。 本发明的优点和有益效果 本发明通过堆叠一个设计的基于立体注意力控制的多尺度卷积模块得到一个卷 积神经网络,可以快速、准确的进行显著性物体检测。由于所设计的基于立体注意力控制的 多尺度卷积模块以深度可分离卷积来代替传统卷积,使得方法的参数很少、计算量很小、速 度很快。同时,由于所设计的基于立体注意力控制的多尺度卷积模块可以用深度可分离卷 积高效地学习多尺度和丰富的图像表达,使得方法可以取得和传统方法相似的精度。 附图说明 图1为本发明所设计的基于立体注意力控制的多尺度卷积模块。 图2为本发明所设计的卷积神经网络的整体架构。 图3为本发明的实验结果和相关方法的对比。 图4为本发明的几组示例结果。 4 CN 111598108 A 说 明 书 3/6 页