利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统-好方法网

技术摘要：
本发明公开了一种利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统。包括步骤：给出一段视频，从视频中提取不同帧的区域特征，从中提取动态信息；给出查询语句，借助Bi‑GRU和NLTK库学习对象在句子上下文中的特征；构建对象感知多分支关系网络，全部
背景技术：
视频中指定对象定位(Spatio-temporal video grounding)是一种用于连接计算机视觉(CV)和自然语言处理(NLP)的任务，给定一个描述对象的句子，在视频中检索描述对象的时空管道，即生成边界框。近年来，人们在此领域做了很多工作。但是，大多数现有定位方法仅限于对齐良好的句子-视频片段对。视频中指定对象定位是跨模式理解领域中的一项新兴任务。目前已有的大多数方法仅限于对齐良好的句子-视频片段对，即视频片段已经从完整的视频中剪辑出来，与句子在时间上对齐。最近，已有研究人员开始探索基于未对齐数据和多种形式句子的视频中指定对象定位问题。具体来说，句子形式可以为陈述句或疑问句，句子中可以描述一段时间内查询对象与其他辅助对象之间的关系，如“小孩踢皮球”描述了主要对象(小孩)与辅助对象 (皮球)在一段时间内的运动关系。因此，此任务的关键在于捕获视频中对象之间的关键关系，以此为依据生成边界框。现有方法中，一些方法尽管可以在对齐的句子-视频片段上实现出色的性能，但这些方法不能解决在未对齐的句子-视频片段上的定位问题，并且不能识别对象之间的关系。探索未对齐数据的方法中，Zhang等人(Zhu Zhang ,Zhou Zhao ,Yang Zhao ,Qi Wang , Huasheng Liu ,and Lianli Gao .Where does it exist:Spatio-temporal video grounding for multi-form sentences.arXiv preprint)将文本线索整合到区域特征中，采用时空图推理来检索时空管道。尽管此方法可以通过跨模式区域交互来捕获对象关系，但它未能过滤掉不必要的对象，并将其保留在所有区域的粗略关系模型中，阻碍了有效关系模型的建立。因此，现有的视频中指定对象定位的方法至少存在如下的技术问题： (1)必须先提取一系列候选时空管道(即候选边框)，再根据句子提取最相关的管道，在没有对齐的句子-视频片段上很难提取合适的候选管道； (2)每个对象单独建模；或者尽管建立了对象之间的关系模型，但模型较为粗略，引入了不必要的对象。这些问题会使得现有技术中的一些定位方法在未对齐的句子-视频片段上性能较差，忽略了每个对象之间的关系，将不必要的对象纳入了对象关系模型中，导致最终定位范围不精确。
技术实现要素：
为了解决现有技术中在未对齐的句子-视频片段上定位的性能较差，不能精确捕 8 CN 111582170 A 说　明　书 2/14 页捉对象之间关系的问题，本发明提出了一种利用对象感知多分支关系网络(OMRN)完成视频中指定对象定位任务的方法和定位系统。本方法首先从视频中提取动态区域特征，并学习与句子中名词相对应的对象表示。然后建立对象感知多分支关系网络，确定包含对象的视频区域，其中对象感知多分支关系网络包含了多个分支，每一个分支对应查询语句中的一个名词对象，主要分支对应查询的对象，即主要对象，辅助分支对应句子中提到的其他对象，具体的，在每一个分支中使用对象感知调制层来增强对象相关区域特征，削弱每个分支中不必要的区域特征，然后在每个分支中进行对象-区域跨模态匹配，再根据多分支关系推理模块来捕获主要分支和辅助分支之间的关键对象关系。此外，考虑到每个分支只应关注其对应的对象，本发明给出了一种多样性损失计算方法(多样性损失函数)，使得不同的分支关注不同区域。最后根据时间-空间定位器来确定时间边界并检索目标管道。本发明将更加注重句子中的关键对象，并在其之间建立足够强大的跨模式关系推理，实现精确定位。为了实现上述目的，本发明所采用的具体技术方案是：利用对象感知多分支关系网络完成视频中指定对象定位任务的方法，包括如下步骤： S1：针对一段视频，从视频中提取不同帧的区域特征，并计算视频帧中任一区域特征与相邻区间内的视频帧中所有区域特征之间的关联分数；提取相邻区间内的每一个视频帧中具有最高匹配分数的区域特征作为匹配区域特征，将视频帧中任一区域特征与其匹配区域特征进行平均池化，得到视频帧的动态区域特征； S2：针对查询语句，首先采用Bi-GRU网络得到查询语句中所有单词的语义特征集合，并从语义特征集合中提取出名词的语义特征；然后采用注意力方法进一步得到查询语句中的对象特征； S3：构建对象感知多分支关系网络，所述的对象感知多分支关系网络由一个主要分支、T-1个辅助分支和多分支关系推理模块构成，每一个分支均包括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层；首先将步骤S1中得到的视频帧的动态区域特征和步骤S2得到的查询语句中的第t 个对象特征作为第t个分支的对象感知调制层的输入，得到视频中区域的对象感知区域特征，其中t＝1时表示主要分支，t∈{2,3,…T}时表示辅助分支；然后通过跨模态匹配层计算视频中区域的对象感知区域特征与查询语句中的对象特征之间的匹配分数，并通过softmax函数层对匹配分数进行处理；最后将主要分支和T-1个辅助分支输出的视频中区域的对象感知区域特征和经 softmax函数处理后的匹配分数作为多分支关系推理模块的输入，得到区域的对象感知多分支特征； S4：建立空间-时间定位器，包括一个空间定位器和一个时间定位器； S5：设计一个多任务损失函数为：其中，λ1，λ2，λ3，λ4调控四种损失之间平衡的超参数，表示空间定位器的损失函数，表示时间定位器的对齐损失函数，表示时间定位器的回归损失函数，表示对象感知多分支关系网络的多样性损失函数；根据多任务损失函数，以端到端的方式进行训练对象感知多分支关系网络和空间-时间定位器； 9 CN 111582170 A 说　明　书 3/14 页 S6：针对待处理的一段视频和查询语句，首先经步骤S1和S2进行预处理，再将得到的视频帧的动态区域特征和查询语句中的对象特征作为训练好的对象感知多分支关系网络的输入，并将其输出作为训练好的空间-时间定位器的输入，将多任务损失函数最小值对应的区域作为最终的结果输出。进一步的，所述步骤S3具体为： 3.1)构建对象感知多分支关系网络，所述的对象感知多分支关系网络由一个主要分支、T-1个辅助分支和多分支关系推理模块构成，每一个分支均包括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层； 3.2)将步骤S1得到的区域特征和查询语句中的对象特征ot一起作为第t个分支的输入，通过每一个分支的对象感知调制层计算得到对象感知区域特征，公式为： γ γ γt＝tanh(W ot b ) δt＝tanh(Wδo δt b ) 其中，Wγ，Wδ，bγ，bδ是参数矩阵和偏置向量，γt表示对应查询语句中的第t个对象的调制门，δt表示查询语句中的第t个对象的偏置向量；⊙ 表示逐个元素相乘，表示第t 分支的第n个视频帧第k个区域的对象感知区域特征； 3.3)通过跨模态匹配层，计算视频中区域的对象感知区域特征与查询语句中的对象特征之间的匹配分数，公式如下：其中，表示行向量，Wc表示参数矩阵，bc表示参数向量，表示第n个视频帧第 k个区域与查询语句中的第t个对象的匹配分数；再通过softmax函数层对进行处理，得到构成集合 3.4)将主要分支和T-1个辅助分支输出的经softmax函数处理后的匹配分数以及对象感知区域特征作为多分支关系推理模块的输入，得到区域的对象感知多分支特征具体为： 3.4.1)计算主要分支的视频帧中任一区域与T-1个辅助分支的视频帧中任一区域之间的注意力权重，计算公式为：其中，表示主要分支的第n个视频帧第k个区域的对象感知区域特征，表示第 t个分支的第n个视频帧第l个区域的对象感知区域特征；和分别表示主要分支的第n个视频帧第k个区域和第t个分支的第n个视频帧第l个区域的相对位置向量和注意力权重，再通过softmax函数层对进行处理，得到 3.4.2)从辅助分支中集合查询语句中第t个对象的相关区域，得到第t个分支中所 10 CN 111582170 A 说　明　书 4/14 页有区域对于主要分支中的任一区域的集成特征，计算公式为：其中，表示第t个分支t中所有区域对于主要分支中的第n个视频帧第k个区域的集成特征，t≥2；根据视频帧中任一区域的集成特征进一步得到所有区域对象感知多分支特征集合计算公式为：其中，ReLU(·)表示线性整流函数，用作激活函数，表示第n个视频帧第k区域的对象感知多分支特征。所述的多样性损失函数为：其中，Sgt表示真值片段中帧的集合，为归一化因数，和表示经softmax函数层处理后的查询语句中的任意两个对象与第n个视频帧所有区域的匹配分数集合。本发明的另一目的在于提供一种利用对象感知多分支关系网络完成视频中指定对象定位任务的定位系统，用于实现上述的完成视频中指定对象定位任务的方法，包括：视频预处理模块：用于从视频中提取不同帧的区域特征，并计算视频帧中任一区域特征与相邻区间内的视频帧中所有区域特征之间的关联分数；提取相邻区间内的每一个视频帧中具有最高匹配分数的区域特征作为匹配区域特征，将视频帧中任一区域特征与其匹配区域特征进行平均池化，得到视频帧的动态区域特征；查询语句预处理模块：用于获取查询语句中所有单词的语义特征集合，并从语义特征集合中提取出名词的语义特征，进一步采用注意力方法进一步得到查询语句中的对象特征；视频片段定位模块：用于根据预处理后的视频和查询语句，完成指定对象在视频中的定位任务，所述的视频片段定位模块包括建模子模块和训练子模块，所述的建模子模块中配置有对象感知多分支关系模型、空间定位模型和时间定位模型，所述的对象感知多分支关系模型用于提取区域的对象感知多分支特征，所述的空间定位模型用于实现空间管道的定位，所述的时间定位模型用于实现时间管道的定位，所述的训练子模块配置有多任务损失函数；输出模块：用于输出定位结果。本发明具备的有益效果： (1)传统的定位方法必须先提取一系列候选时空管道(即候选边框)，提取一系列 11 CN 111582170 A 说　明　书 5/14 页候选时空管道指的是在时间已经定位(即已对齐)的前提下，选出一系列候选区域边框，再根据句子提取最相关的管道，在没有对齐的句子-视频片段上很难提取合适的候选管道，因此现有技术中的定位方法不适用于未对齐句子-视频片段对的定位，而本发明首先通过关联分数筛选出在不同帧中属于同一区域的区域特征，采用平均池化的方法得到每个区域的动态特征，并通过建立时间定位器，采样一组候选片段，计算每个候选片段中每一帧的时间置信度分数，计算得到时间损失函数完成时间定位，提高了在未对齐句子-视频片段上的定位准确率。 (2)对于现有技术中不能精确捕捉对象之间关系的问题，本发明构建了对象感知多分支关系网络，包括主要分支、辅助分支、多分支关系推理模块；每一个分支对应查询语句中的一个名词对象，将查询语句中的第一个名词作为主要对象，即查询对象，对应于主要分支；查询语句中提及到的其他对象作为辅助对象，对应于辅助分支。在每一个分支中，包括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层，在每一个分支中使用对象感知调制层来增强对象相关区域特征，削弱每个分支中不必要的区域特征，然后在每个分支中进行对象-区域跨模态匹配，再根据多分支关系推理模块来捕获主要分支和辅助分支之间的关键对象关系，尤其在多分支关系推理模块中，计算得到每个分支中所有区域对于主要分支中每个区域的集成特征，使用ReLU激活函数处理得到对象感知多分支特征，此特征即可准确反映辅助分支与主要分支的关系，因此使得捕捉到的对象关系更加精确。 (3)对于现有技术中对象关系模型往往引入了不必要的对象造成模型较为粗略的问题，本发明设计了一种多样性损失函数，根据区域-对象匹配分数(即每一个分支中对于视频帧中每一个区域的匹配分数)来计算损失函数，确保每个分支只关注其对应的对象，能够在获得的对象关系模型中有效过滤掉不必要的的对象关系，进一步提高定位性能。附图说明图1本发明的整体流程示意图；图2是对象感知多分支关系网络的整体架构示意图。

下载此资料需消耗2积分，

相关推荐