一种基于图卷积神经网络的跨模态检索方法-好方法网

技术摘要：
一种基于图卷积神经网络的跨模态检索方法，包括网络构建、数据集预处理、网络训练和检索与精度测试四个过程。利用图卷积神经网络分别学习图像模态和文本模态中的语义表征，可以帮助处理各模态特征之间的潜在联系，其将第三模态的关联数据引入跨模态检索方法中，以缩小全部
背景技术：
跨模态检索是一种使用一种模态的数据进行查询并返回其他不同模态下检索结果的方法，广泛应用于图像和文本数据的匹配。例如，在传统的图像到文本的跨模态检索任务中，通过检索将最相似的文本作为输出。近年来，随着深度学习的快速发展，目前的跨模态检索方法大多通过神经网络使用多模态数据直接检索，而不依赖于标签，但其方法简单地将跨模态检索算法与深度神经网络相结合，如选择图像中的几个特征进行降维操作等，大多没有充分利用多模态数据中潜在的深度信息，其对每个模态下的数据学习到的表征粒度较粗，不能保证其检索的准确性。因此跨模态检索在具体应用中还存在许多问题。同时，以往的跨模态检索模型大多只使用两种模态的数据，这些数据没法很好的刻画现实世界中的信息关联，如何尽可能有效地利用各种相关的多模态数据也是一个有待解决的技术问题。
技术实现要素：
为了克服现有跨模态检索方法对多模态数据利用不充分、对不同模态间的数据表征能力差、检索精度低等不足，本发明提供一种精度高、能充分利用多种模态的数据、表征能力强的基于图卷积神经网络的跨模态检索方法，采用了最新的先进的基于图学习的神经网络技术，不仅可以更有效地提取深度语义特征，还可以挖掘特征在模态中的潜在相关性。因此本方法在端到端的跨模态检索任务中，能够有效地跨越模态之间的语义鸿沟检索出想要的数据。本发明解决其技术问题所采用的技术方案是：一种基于图卷积神经网络的跨模态检索方法，所述方法包括以下步骤：步骤一、网络构建，过程如下：步骤1.1：该深度学习网络主要框架由一个图像图卷积模型、一个文本图卷积模型及一个典型关联分析模型组成；步骤1.2：其中图像图卷积模型有图像特征提取模型与图卷积神经网络结合组成，文本图卷积模型由文本特征提取模型与图卷积神经网络结合组成，图像特征提取模型选用预训练的ResNet-101卷积神经网络，文本特征提取模型选用预训练的BERT模型；步骤1.3：典型关联分析模型的两路输入部分各接一个空间金字塔池化层与一个全连接层，全连接层后面接ReLU激活函数；步骤1.4：最后连接到典型关联分析范式层，包括典型关联分析函数与损失函数，选用的损失函数为Pairwise排序损失；步骤二、数据集预处理，过程如下：步骤2.1：将用于正式训练的多模态数据集包含成对的图像、文本、图像关联数据 4 CN 111598214 A 说　明　书 2/4 页和文本关联数据三种模态的数据，将该数据集按照对分为训练集Q和测试集Q’两部分；步骤2.2：对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数；步骤2.3：将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处；步骤三、网络训练，过程如下：步骤3.1：将Q中每个训练样本中的图像与文本作为两路输入送入跨模态检索模型；步骤3.2：对图像使用卷积神经网络提取图像特征，对文本使用BERT提取文本特征；步骤3.3：将提取的特征分别采用全局最大池化表征为特征向量，分别送入预训练好的图卷积神经网络进行上采样：步骤3.4：将上一步骤输出的特征图以特征矩阵的形式表示，并分别送入空间金字塔池化层进行下采样；步骤3.5：将得到的图像特征向量与训练样本中的图像关联数据进行特征融合，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合；步骤3.6：将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块，进行最终跨模态匹配部分的训练；步骤四、检索与精度测试，过程如下：步骤4.1：将预处理好的测试数据集Q’送入训练得到的最优模型，采用文本到图像的检索进行跨模态检索测试；步骤4.2：使用跨模态检索模型对输入的文本及其关联数据进行跨模态匹配，匹配到最优的top5段不同的图像及其关联数据，并使用支持向量机判断匹配的文本图像对所属类别，记录检索结果；步骤4.3：比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致，根据数据检索中的评价指标计算所有问询文本的准确率；经过上述步骤的操作，即可实现跨模态检索。进一步，所述步骤1.2中，将ResNet-101与图卷积神经网络(GCN)结合组成的Res- GCN作为图像的特征提取器，其预训练过程在多标签图像数据集MSCOCO上进行；将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器，其预训练过程在多标签的文本数据集Google News上进行，将预训练好的多标签分类器中的图卷积神经网络放入跨模态检索模型中进行下一步的训练。所述步骤1.3中，典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层，空间金字塔池化层将输入矩阵共分为21个空间，对每一个空间采用全局最大池化方法。所述步骤3.5中，将得到的图像特征向量与训练样本中的图像关联数据进行特征融合，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合，两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。本发明的有益效果主要体现在：本发明提出了一种新的跨模态检索方法，它利用 5 CN 111598214 A 说　明　书 3/4 页图卷积神经网络分别学习图像模态和文本模态中的语义表征，可以帮助处理各模态特征之间的潜在联系，其将第三模态的关联数据引入跨模态检索方法中，以缩小模态间的语义鸿沟，可以显著提高跨模态检索的精确度与稳定性，从而实现准确的跨模态检索。附图说明图1为基于图卷积神经网络的跨模态检索模型的框架示意图。

下载此资料需消耗2积分，

相关推荐