logo好方法网

一种引入外部知识的视觉问答方法


技术摘要:
本发明公开一种引入外部知识的视觉问答方法。所述方法包括:构造视觉图;构造事实知识图;利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;在问题的引导下从视觉图中提取相对每个事实知识的互  全部
背景技术:
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片 相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心 理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析 问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果 问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题 时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人 工智能,将外部知识引入视觉问答中是必不可少的环节。 有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的 方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和 ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库, 抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类,得 到一个查询语句,根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实 的匹配程度,选择最相关的事实。最后根据问题预测答案的来源,选择一个实体当做最后的 问题。但是如果出现同义词或同形异义词,QQMapping的效果就会下降。为此,有人提出一种 基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像 和问题的嵌入表示,然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表 示。通过另一个LSTM预测对应事实的关系类型,然后根据关系抽取出相应的事实,使用 GloVe得到事实的嵌入,计算其与图像-问题联合表示的内积,选取内积最大的作为事实。最 后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力,能够克服 同义词和同形异义词引发的歧义。 图神经网络是一种将深度学习扩展到图数据的模型,可以有效利用图数据的复杂 的拓扑结构学习每个节点的表示,从而提高下游任务的准确度。根据图像的视觉概念和对 应的关系类型将抽取到的事实组成一个知识图谱,其中每个节点是一个实体,每条边表示 实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用 图卷积网络学习到每个节点的表示,有效地捕获了知识图谱的邻居信息和拓扑结构信息。 学习到的每个节点的表示通过一个多层感知机,最后一层只包括一个神经元,输出当前节 点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。 上述方法存在的问题是:编码图像时都使用了全部的视觉信息,但没有根据问题 的不同自适应地选择需要的信息,会引入与问题无关的噪声;将回答问题所需的视觉信息 和事实知识直接拼接,没有根据问题进行动态融合。 4 CN 111611367 A 说 明 书 2/5 页
技术实现要素:
为了解决现有技术中存在的上述问题,本发明提出一种基引入外部知识的视觉问 答方法。 为实现上述目的,本发明采用如下技术方案: 一种引入外部知识的视觉问答方法,包括以下步骤: 步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点 个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量, 为边集合, 为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系 的向量,j∈[1,Nv],j≠i; 步骤2,选取知识库中与问题最相关的N 个事实知识构造事实知识图Gf=(Vf,Eff ), Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识, 为边集合, 为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i; 步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突 出与问题相关的节点和边,然后使用图神经网络更新节点; 步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所 述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。 与现有技术相比,本发明具有以下有益效果: 本发明通过构造视觉图,构造事实知识图,利用注意力机制对视觉图和事实知识 图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节 点,在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融 合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问 题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实 知识图中,避免了冗余的噪声,提高了答案的准确率。 附图说明 图1为本发明实施例一种引入外部知识的视觉问答方法的流程图。
下载此资料需消耗2积分,
分享到:
收藏