一种引入外部知识的视觉问答方法-好方法网

技术摘要：
本发明公开一种引入外部知识的视觉问答方法。所述方法包括：构造视觉图；构造事实知识图；利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；在问题的引导下从视觉图中提取相对每个事实知识的互全部
背景技术：
视觉问答涉及计算机视觉和自然语言处理技术，即给定一张图片和一个与该图片相关的自然语言问题，计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象，其中的问题与简单的计数、颜色和其它视觉检测任务有关，只需要直接分析问题和图像就可以获得答案，因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识，这些模型往往会得出错误答案，而人类在面对涉及常识的视觉问题时，会综合关联图像和外部知识来回答。因此，为了补足和人类的差距从而实现更通用的人工智能，将外部知识引入视觉问答中是必不可少的环节。有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和 ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库，抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类，得到一个查询语句，根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度，选择最相关的事实。最后根据问题预测答案的来源，选择一个实体当做最后的问题。但是如果出现同义词或同形异义词，QQMapping的效果就会下降。为此，有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示，然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型，然后根据关系抽取出相应的事实，使用 GloVe得到事实的嵌入，计算其与图像-问题联合表示的内积，选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力，能够克服同义词和同形异义词引发的歧义。图神经网络是一种将深度学习扩展到图数据的模型，可以有效利用图数据的复杂的拓扑结构学习每个节点的表示，从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱，其中每个节点是一个实体，每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示，有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机，最后一层只包括一个神经元，输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。上述方法存在的问题是：编码图像时都使用了全部的视觉信息，但没有根据问题的不同自适应地选择需要的信息，会引入与问题无关的噪声；将回答问题所需的视觉信息和事实知识直接拼接，没有根据问题进行动态融合。 4 CN 111611367 A 说　明　书 2/5 页
技术实现要素：
为了解决现有技术中存在的上述问题，本发明提出一种基引入外部知识的视觉问答方法。为实现上述目的，本发明采用如下技术方案：一种引入外部知识的视觉问答方法，包括以下步骤：步骤1，构造图像I的视觉图Gv＝(Vv,Ev)，Vv＝{vi}为节点集，i∈[1,Nv]，Nv为节点个数，vi为第i个节点，表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量，为边集合，为连接节点vi和vj的边，是表示第i个检测框和第j个检测框位置关系的向量，j∈[1,Nv]，j≠i；步骤2，选取知识库中与问题最相关的N 个事实知识构造事实知识图Gf＝(Vf,Eff )， Vf＝{fi}为节点集，i∈[1,Nf]，fi为第i个节点，表示第i个事实知识，为边集合，为连接节点fi和fj的边，表示第i个事实知识与第j个事实知识的关系，j∈[1,Nf]，j≠i；步骤3，利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；步骤4，在问题的引导下，从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，可能是答案的概率最大的事实知识为问题的答案。与现有技术相比，本发明具有以下有益效果：本发明通过构造视觉图，构造事实知识图，利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点，在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，避免了冗余的噪声，提高了答案的准确率。附图说明图1为本发明实施例一种引入外部知识的视觉问答方法的流程图。

相关推荐