基于深度特征区域融合的丝绸文物图像检索方法-好方法网

技术摘要：
本发明涉及一种基于深度特征区域融合的丝绸文物图像检索方法，其特征在于，包括以下步骤：采用深度学习全局特征提取方式对丝绸文物图像进行分类学习；采用神经网络可视化的方式对某一类别的丝绸文物图像对应的激活区域进行选择，进而实现检索目标定位；通过区域特征融全部
背景技术：
丝绸文物图像信息资源作为一种广泛利用的媒体，见证了丝绸之路的发展和传播。采用深度特征提取的丝绸文物检索方法可以有效地管理快速增长的丝绸文物图像数据集，并将传统的丝绸之路通过网络手段用数字化的方式展现给广大用户。目前采用深度特征提取的丝绸文物检索方法主要是基于全局特征，即采用深度特征网络的全连接层输出作为特征描述符，从而保持图像的整体语义信息。基于全局的方法大多集中于图像分类式的检索任务，其特征提取方法也是基于全局的全连通层输出。然而由于卷积神经网络主要对全局空间信息进行编码，导致所得特征缺乏对图像的尺度、旋转、平移等几何变换和空间布局变化的不变性，限制了其对于高度易变图像检索的鲁棒性。同时对于丝绸图像，其检索目标只占整张图片很小一部分，因此对于该小目标检索问题，这种基于全局的特征无法有效表征该小目标并精确定位小目标区域。
技术实现要素：
本发明要解决的技术问题是：现有丝绸文物检索方法无法实现小目标检索和定位。为了解决上述技术问题，本发明的技术方案是提供了一种基于深度特征区域融合的丝绸文物图像检索方法，其特征在于，包括以下步骤：步骤1、采用深度学习全局特征提取方式对丝绸文物图像进行分类学习，将所有丝绸文物图像分为不同的类别；步骤2、采用神经网络可视化的方式对步骤1确定的某一类别的丝绸文物图像对应的激活区域进行选择，进而实现检索目标定位，包括以下步骤：步骤201、利用Grad-CAM方法对步骤1确定的具体某一类别的丝绸文物图像的特征面进行融合获得Grad-CAM图；步骤202、对每一类别的Grad-CAM图进行全局平均值池化，即取Grad-CAM图平均值并打分，高于某一个阈值的Grad-CAM图保留，表明该Grad-CAM图包含有的当前类别的目标；步骤203、根据保留的Grad-CAM图的轮廓，定位所对应类别的目标的具体位置，实现目标定位；步骤3、通过区域特征融合的方式，将涉及到目标区域的特征进行融合作为该目标的局部描述符，包括以下步骤：步骤301、通过对检测目标进行定位，得到该目标在其定位区域的卷积结果为一个 H×W×D的Tensor特征面，H、W、D分别表示特征面的高、宽和通道数量；步骤302、采用Region Maximum Activation of Convolutions的策略，将H×W×D 3 CN 111737512 A 说　明　书 2/3 页的Tensor特征面看作一个数量为D的H×W维的描述子，通过对D个H×W的描述子进行局部的平均值池化或最大化池化，即得到一个D维特征来代表该目标；步骤4、获得用户请求图片，采用步骤2及步骤3所述的方法获得用户请求图片的特征，在局部特征空间中，计算用户请求图片的特征与每一类丝绸文物图像的特征之间的欧式距离，选择与用户请求图片的特征距离最近的那一类丝绸文物图像进行检索。优选地，步骤1中，在进行所述分类学习时，利用迁移学习的方式对目标数据在预训练模型上进行分类微调。优选地，步骤302中，如果一幅图片包含多个目标，采用区域特征融合的方式将不同目标的D维特征串联起来作为输出。本发明针对丝绸文物图像检索目标通常只占很小一部分的特点，通过融合深度特征提取与候选检索区域的方式，可以对检索目标进行精确定位和细粒度特征提取，从而提升丝绸文物图像检索性能，实现丝绸文物图像的小目标检索。

相关推荐