logo好方法网

利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统


技术摘要:
本发明公开了一种利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统。包括步骤:给出一段视频,从视频中提取不同帧的区域特征,从中提取动态信息;给出查询语句,借助Bi‑GRU和NLTK库学习对象在句子上下文中的特征;构建对象感知多分支关系网络,  全部
背景技术:
视频中指定对象定位(Spatio-temporal  video  grounding)是一种用于连接计算 机视觉(CV)和自然语言处理(NLP)的任务,给定一个描述对象的句子,在视频中检索描述对 象的时空管道,即生成边界框。近年来,人们在此领域做了很多工作。但是,大多数现有定位 方法仅限于对齐良好的句子-视频片段对。 视频中指定对象定位是跨模式理解领域中的一项新兴任务。目前已有的大多数方 法仅限于对齐良好的句子-视频片段对,即视频片段已经从完整的视频中剪辑出来,与句子 在时间上对齐。最近,已有研究人员开始探索基于未对齐数据和多种形式句子的视频中指 定对象定位问题。具体来说,句子形式可以为陈述句或疑问句,句子中可以描述一段时间内 查询对象与其他辅助对象之间的关系,如“小孩踢皮球”描述了主要对象(小孩)与辅助对象 (皮球)在一段时间内的运动关系。因此,此任务的关键在于捕获视频中对象之间的关键关 系,以此为依据生成边界框。 现有方法中,一些方法尽管可以在对齐的句子-视频片段上实现出色的性能,但这 些方法不能解决在未对齐的句子-视频片段上的定位问题,并且不能识别对象之间的关系。 探索未对齐数据的方法中,Zhang等人(Zhu  Zhang ,Zhou  Zhao ,Yang  Zhao ,Qi  Wang , Huasheng  Liu ,and  Lianli  Gao .Where  does  it  exist:Spatio-temporal  video  grounding  for  multi-form  sentences.arXiv  preprint)将文本线索整合到区域特征中, 采用时空图推理来检索时空管道。尽管此方法可以通过跨模式区域交互来捕获对象关系, 但它未能过滤掉不必要的对象,并将其保留在所有区域的粗略关系模型中,阻碍了有效关 系模型的建立。 因此,现有的视频中指定对象定位的方法至少存在如下的技术问题: (1)必须先提取一系列候选时空管道(即候选边框),再根据句子提取最相关的管 道,在没有对齐的句子-视频片段上很难提取合适的候选管道; (2)每个对象单独建模;或者尽管建立了对象之间的关系模型,但模型较为粗略, 引入了不必要的对象。 这些问题会使得现有技术中的一些定位方法在未对齐的句子-视频片段上性能较 差,忽略了每个对象之间的关系,将不必要的对象纳入了对象关系模型中,导致最终定位范 围不精确。
技术实现要素:
为了解决现有技术中在未对齐的句子-视频片段上定位的性能较差,不能精确捕 8 CN 111582170 A 说 明 书 2/14 页 捉对象之间关系的问题,本发明提出了一种利用对象感知多分支关系网络(OMRN)完成视频 中指定对象定位任务的方法和定位系统。本方法首先从视频中提取动态区域特征,并学习 与句子中名词相对应的对象表示。然后建立对象感知多分支关系网络,确定包含对象的视 频区域,其中对象感知多分支关系网络包含了多个分支,每一个分支对应查询语句中的一 个名词对象,主要分支对应查询的对象,即主要对象,辅助分支对应句子中提到的其他对 象,具体的,在每一个分支中使用对象感知调制层来增强对象相关区域特征,削弱每个分支 中不必要的区域特征,然后在每个分支中进行对象-区域跨模态匹配,再根据多分支关系推 理模块来捕获主要分支和辅助分支之间的关键对象关系。此外,考虑到每个分支只应关注 其对应的对象,本发明给出了一种多样性损失计算方法(多样性损失函数),使得不同的分 支关注不同区域。最后根据时间-空间定位器来确定时间边界并检索目标管道。本发明将更 加注重句子中的关键对象,并在其之间建立足够强大的跨模式关系推理,实现精确定位。 为了实现上述目的,本发明所采用的具体技术方案是: 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法,包括如下步 骤: S1:针对一段视频,从视频中提取不同帧的区域特征,并计算视频帧中任一区域特 征与相邻区间内的视频帧中所有区域特征之间的关联分数;提取相邻区间内的每一个视频 帧中具有最高匹配分数的区域特征作为匹配区域特征,将视频帧中任一区域特征与其匹配 区域特征进行平均池化,得到视频帧的动态区域特征; S2:针对查询语句,首先采用Bi-GRU网络得到查询语句中所有单词的语义特征集 合,并从语义特征集合中提取出名词的语义特征;然后采用注意力方法进一步得到查询语 句中的对象特征; S3:构建对象感知多分支关系网络,所述的对象感知多分支关系网络由一个主要 分支、T-1个辅助分支和多分支关系推理模块构成,每一个分支均包括一个对象感知调制 层、一个跨模态匹配层和一个softmax函数层; 首先将步骤S1中得到的视频帧的动态区域特征和步骤S2得到的查询语句中的第t 个对象特征作为第t个分支的对象感知调制层的输入,得到视频中区域的对象感知区域特 征,其中t=1时表示主要分支,t∈{2,3,…T}时表示辅助分支; 然后通过跨模态匹配层计算视频中区域的对象感知区域特征与查询语句中的对 象特征之间的匹配分数,并通过softmax函数层对匹配分数进行处理; 最后将主要分支和T-1个辅助分支输出的视频中区域的对象感知区域特征和经 softmax函数处理后的匹配分数作为多分支关系推理模块的输入,得到区域的对象感知多 分支特征; S4:建立空间-时间定位器,包括一个空间定位器和一个时间定位器; S5:设计一个多任务损失函数为: 其中,λ1,λ2,λ3,λ4调控四种损失之间平衡的超参数, 表示空间定位器的损失函 数, 表示时间定位器的对齐损失函数, 表示时间定位器的回归损失函数, 表示对象 感知多分支关系网络的多样性损失函数;根据多任务损失函数,以端到端的方式进行训练 对象感知多分支关系网络和空间-时间定位器; 9 CN 111582170 A 说 明 书 3/14 页 S6:针对待处理的一段视频和查询语句,首先经步骤S1和S2进行预处理,再将得到 的视频帧的动态区域特征和查询语句中的对象特征作为训练好的对象感知多分支关系网 络的输入,并将其输出作为训练好的空间-时间定位器的输入,将多任务损失函数最小值对 应的区域作为最终的结果输出。 进一步的,所述步骤S3具体为: 3.1)构建对象感知多分支关系网络,所述的对象感知多分支关系网络由一个主要 分支、T-1个辅助分支和多分支关系推理模块构成,每一个分支均包括一个对象感知调制 层、一个跨模态匹配层和一个softmax函数层; 3.2)将步骤S1得到的区域特征 和查询语句中的对象特征ot一起作为 第t个分支的输入,通过每一个分支的对象感知调制层计算得到对象感知区域特征,公式 为: γ γ γt=tanh(W ot b ) δt=tanh(Wδo δt b ) 其中,Wγ,Wδ,bγ,bδ是参数矩阵和偏置向量,γt表示对应查询语句中的第t个对象 的调制门,δt表示查询语句中的第t个对象的偏置向量;⊙ 表示逐个元素相乘, 表示第t 分支的第n个视频帧第k个区域的对象感知区域特征; 3.3)通过跨模态匹配层,计算视频中区域的对象感知区域特征与查询语句中的对 象特征之间的匹配分数,公式如下: 其中, 表示行向量,Wc表示参数矩阵,bc表示参数向量, 表示第n个视频帧第 k个区域与查询语句中的第t个对象的匹配分数;再通过softmax函数层对 进行处理,得 到 构成集合 3.4)将主要分支和T-1个辅助分支输出的经softmax函数处理后的匹配分数 以 及对象感知区域特征 作为多分支关系推理模块的输入,得到区域的对象感知多分支特征 具体为: 3.4.1)计算主要分支的视频帧中任一区域与T-1个辅助分支的视频帧中任一区域 之间的注意力权重,计算公式为: 其中, 表示主要分支的第n个视频帧第k个区域的对象感知区域特征, 表示第 t个分支的第n个视频帧第l个区域的对象感知区域特征; 和 分别表示主要分支的 第n个视频帧第k个区域和第t个分支的第n个视频帧第l个区域的相对位置向量和注意力权 重,再通过softmax函数层对 进行处理,得到 3.4.2)从辅助分支中集合查询语句中第t个对象的相关区域,得到第t个分支中所 10 CN 111582170 A 说 明 书 4/14 页 有区域对于主要分支中的任一区域的集成特征,计算公式为: 其中, 表示第t个分支t中所有区域对于主要分支中的第n个视频帧第k个区域 的集成特征,t≥2; 根据视频帧中任一区域的集成特征 进一步得到所有区域对象感知多分 支特征集合 计算公式为: 其中,ReLU(·)表示线性整流函数,用作激活函数, 表示第n个视频帧第k区域的 对象感知多分支特征。 所述的多样性损失函数为: 其中,Sgt表示真值片段中帧的集合, 为归一化因数, 和 表 示经softmax函数层处理后的查询语句中的任意两个对象与第n个视频帧所有区域的匹配 分数集合。 本发明的另一目的在于提供一种利用对象感知多分支关系网络完成视频中指定 对象定位任务的定位系统,用于实现上述的完成视频中指定对象定位任务的方法,包括: 视频预处理模块:用于从视频中提取不同帧的区域特征,并计算视频帧中任一区 域特征与相邻区间内的视频帧中所有区域特征之间的关联分数;提取相邻区间内的每一个 视频帧中具有最高匹配分数的区域特征作为匹配区域特征,将视频帧中任一区域特征与其 匹配区域特征进行平均池化,得到视频帧的动态区域特征; 查询语句预处理模块:用于获取查询语句中所有单词的语义特征集合,并从语义 特征集合中提取出名词的语义特征,进一步采用注意力方法进一步得到查询语句中的对象 特征; 视频片段定位模块:用于根据预处理后的视频和查询语句,完成指定对象在视频 中的定位任务,所述的视频片段定位模块包括建模子模块和训练子模块,所述的建模子模 块中配置有对象感知多分支关系模型、空间定位模型和时间定位模型,所述的对象感知多 分支关系模型用于提取区域的对象感知多分支特征,所述的空间定位模型用于实现空间管 道的定位,所述的时间定位模型用于实现时间管道的定位,所述的训练子模块配置有多任 务损失函数; 输出模块:用于输出定位结果。 本发明具备的有益效果: (1)传统的定位方法必须先提取一系列候选时空管道(即候选边框),提取一系列 11 CN 111582170 A 说 明 书 5/14 页 候选时空管道指的是在时间已经定位(即已对齐)的前提下,选出一系列候选区域边框,再 根据句子提取最相关的管道,在没有对齐的句子-视频片段上很难提取合适的候选管道,因 此现有技术中的定位方法不适用于未对齐句子-视频片段对的定位,而本发明首先通过关 联分数筛选出在不同帧中属于同一区域的区域特征,采用平均池化的方法得到每个区域的 动态特征,并通过建立时间定位器,采样一组候选片段,计算每个候选片段中每一帧的时间 置信度分数,计算得到时间损失函数完成时间定位,提高了在未对齐句子-视频片段上的定 位准确率。 (2)对于现有技术中不能精确捕捉对象之间关系的问题,本发明构建了对象感知 多分支关系网络,包括主要分支、辅助分支、多分支关系推理模块;每一个分支对应查询语 句中的一个名词对象,将查询语句中的第一个名词作为主要对象,即查询对象,对应于主要 分支;查询语句中提及到的其他对象作为辅助对象,对应于辅助分支。在每一个分支中,包 括一个对象感知调制层、一个跨模态匹配层和一个softmax函数层,在每一个分支中使用对 象感知调制层来增强对象相关区域特征,削弱每个分支中不必要的区域特征,然后在每个 分支中进行对象-区域跨模态匹配,再根据多分支关系推理模块来捕获主要分支和辅助分 支之间的关键对象关系,尤其在多分支关系推理模块中,计算得到每个分支中所有区域对 于主要分支中每个区域的集成特征,使用ReLU激活函数处理得到对象感知多分支特征,此 特征即可准确反映辅助分支与主要分支的关系,因此使得捕捉到的对象关系更加精确。 (3)对于现有技术中对象关系模型往往引入了不必要的对象造成模型较为粗略的 问题,本发明设计了一种多样性损失函数,根据区域-对象匹配分数(即每一个分支中对于 视频帧中每一个区域的匹配分数)来计算损失函数,确保每个分支只关注其对应的对象,能 够在获得的对象关系模型中有效过滤掉不必要的的对象关系,进一步提高定位性能。 附图说明 图1本发明的整体流程示意图; 图2是对象感知多分支关系网络的整体架构示意图。
下载此资料需消耗2积分,
分享到:
收藏