技术摘要:
本发明公开了基于尺度注意力空洞卷积网络的视频动作检测方法。本发明方法首先对视频采样获得帧图像序列并根据片段位置标记获得视频片段,然后分别构建层尺度注意力动作片段模型和构建帧位置注意力动作识别模型,根据上述模型并结合分水岭算法依次获得帧图像的加权特征 全部
背景技术:
人类动作视频的理解对安防监控、行为分析等诸多领域有重要作用,已成为计算 机视觉领域的前沿研究课题。然而未经剪辑的真实视频往往包含与人类动作无关的背景片 段,将会影响视频内容的正确理解。针对这一问题,视频动作检测方法不仅对视频内的动作 进行分类,还可以定位动作实例在视频中发生的开始与结束时间。视频动作检测任务通常 以视频帧序列作为输入,以“动作种类-开始帧-结束帧”的形式输出多组片段的检测结果, 其处理过程可分为两个阶段:动作片段生成和动作片段识别。前者一般输出片段的开始帧 和结束帧,后者则输出片段的动作种类。通常,运用视频动作检测方法可以帮助更好地理解 视频内容,包括视频摘要、动作识别、内容标注、事件捕捉等任务。例如,对视频摘要任务,其 关键片段可通过视频动作检测获取,这样可以准确定位到最能反映视频内容的关键帧或片 段,从而提高视频摘要的质量。 视频动作检测针对视频帧图像进行处理且需要刻画各帧之间的时序关系,涉及高 维度的张量计算。传统机器学习方法采用人工提取的特征如轨迹特征在提取效率上已经无 法满足实时性能要求,并且特征提取过程脱离模型训练,从而造成模型的泛化性能较弱。近 年来,端到端学习的卷积神经网络(CNN:Convolutional Neural Network)飞速发展,能够 被用于弥补传统方法的缺陷。例如:基于三维卷积神经网络或光流场信息进行时序动作信 息的特征提取效率更高;;基于深度强化学习的候选片段生成方案,能够端到端地自适应完 成动作片段生成任务;时序动作定位网络为解决动作片段长短不一问题而提出多尺度并行 的动作片段生成结构,大幅度地刷新了该领域的最佳性能。 已有的视频动作检测方法主要存在以下不足:第一,在特征提取阶段,为了提取动 作的时序特征使用的三维卷积操作会在构建的网络模型中逐层固定地降低输入视频的时 序维度,约束了所提取特征在时序上的尺度大小,过小的尺度可能造成上下文语义割裂,过 大的尺度可能造成不同语义的干扰;第二,在动作片段生成阶段,对于不同时长的动作决定 动作发生与否及其种类的关键点即关键帧位置及其持续时长(如连续关键帧)往往也不同, 常规平均池化操作忽略了关键点的权重问题;第三,现有方法对不同尺度大小的片段使用 不同的网络结构(如空洞卷积网络)提取动作片段的特征表示,将大大增加网络构建和训练 的时间和空间成本。因此,需要设计一种既能提高视频动作检测性能又能节省计算和存储 开销的方法。
技术实现要素:
本发明的目的就是针对现有技术的不足,提供一种基于尺度注意力空洞卷积网络 的视频动作检测方法,可以结合空洞卷积网络捕捉视频数据的时空运动信息,并通过尺度 5 CN 111611847 A 说 明 书 2/6 页 注意力准确刻画视频帧的时序上下文关系,从而有效检测视频中动作片段并准确判定其类 别。 本发明方法首先获取视频数据集合,然后进行以下操作: 步骤(1) .对视频采样处理,获得帧图像序列,并根据片段位置标记获得视频片段; 步骤(2) .构建层尺度注意力动作片段模型,输入为完整视频的帧图像序列,输出 为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率; 步骤(3) .构建帧位置注意力动作识别模型,输入为视频片段帧图像的加权特征表 示,输出为视频片段所属动作类别的概率; 步骤(4) .对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段, 并由帧位置注意力动作识别模型判定片段动作类别,获得动作检测结果。 进一步,步骤(1)具体是: (1-1).对单个视频以每秒i帧的采样率处理为帧图像序列 其中N表示帧图像总数,fn表示序列中第n幅宽为w高为h的RGB三通道帧图像,n=1,2,…,N, i=20~40; (1-2) .根据视频片段位置标记 获取视频片段,包括动作片段和背 景片段;其中视频片段的类别 J为动作类别数目,j=0,1,2,…,J,j≠0时为动作 类别序号,j=0时为背景类别序号;M为动作片段和背景片段的总数目,对于第m个视频片 段,sm是该片段开始帧序号,em是该片段结束帧序号,cm是该片段对应的类别,m=1,2,…,M。 再进一步,步骤(2)具体是: (2-1) .以视频帧为单位逐帧处理完整视频的帧图像序列,由视频片段位置标记分 别获得动作片段和背景片段的开始帧序号和结束帧序号,对动作片段内的视频帧记为动作 帧,对背景片段内的视频帧记为背景帧; (2-2) .层尺度注意力动作片段模型 以考虑时序关系的多层空洞卷积神经网络 为主干,首先通过从低层到高层逐帧处理的方式依次获取帧图像序列 各帧不同 尺度的上下文特征表示,即第t帧图像在第k层的特征表示为 其中ck是第k层 的通道数,wk和hk分别是第k层特征表示的宽和高;然后通过层尺度注意力机制获得完整视 频的加权特征表示 其中第t帧图像的加权特征表示为 是第k层的 尺度注意力权重, K是多层空洞卷积网络的总层数,K≥1; (2-3) .将第t帧图像的加权特征表示St经过全连接层后的输出向量 作为层 尺度注意力动作片段模型 的最后一层的输入,该层采用Softmax(·)函数输出视频帧是 否属于动作帧的概率 其中e表示自然底数,y0是背景帧的概率,y1是动 作帧的概率,Zq表示向量Z的第q个元素,并将第n个视频帧是否属于动作帧的概率记为 之后计算模型的交叉熵损失函数 其中 为真实标记, 表示该帧为 6 CN 111611847 A 说 明 书 3/6 页 动作帧, 表示该帧为背景帧;利用随机梯度下降算法优化训练层尺度注意力动作片段 模型,通过反向梯度传播更新模型参数。 更进一步,步骤(3)具体是: (3-1) .依次从完整视频的加权特征表示 中利用视频片段位置标记L的开始 帧序号和结束帧序号获取各视频片段的加权特征表示 (3-2) .帧位置注意力动作识别模型 以考虑帧位置注意力机制的多层神经网络 为主干,其输入为视频片段各帧的加权特征表示 该模型通过计算帧位置注意力获 得视频片段的加权特征表示 其中 是第t帧的位置注意力权重, (3-3) .将视频片段的加权特征表示Xm经过全连接层后的输出向量 作为帧 位置注意力动作识别模型 的最后一层的输入,该层采用Softmax(·)函数输出为视频片段所 属动作类别j的概率 以及属于背景类别的概率 然后计算模型的交叉熵损失 其中 是真实标记,若视频片段属于类别j 则为1,否则为0;利用随机梯度下降算法优化训练帧位置注意力动作识别模型,通过反向梯 度传播更新模型参数。 又进一步,步骤(4)具体是: (4-1) .对于新视频利用(1-1)获得其帧图像序列 将该序列输入步骤 (2)的层尺度注意力动作片段模型 并通过(2-3)计算得到视频帧图像序列是否属于动作 帧的概率序列 然后对此概率序列使用基于多层次浸没的分水岭算法,即概率值高 于设定阈值τ,τ=0~1,且时序连续的视频帧聚合成为视频片段;同时用多个不同0~1范围 的阈值生成不同长短的M′个视频片段,及其开始帧序号s′和结束帧序号e′; (4-2) .将(4-1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模 型 得到视频片段中的帧图像属于各类别的概率 并将最大概率值对应的类别作 为视频片段所属的类别c';对判定为某个具体动作的视频片段输出其开始帧序号和结束帧 序号; (4-3) .对新视频先经过(4-1)获得视频片段,然后经过(4-2)获得视频动作检测结 果 其中m'是视频片段的序号,M′是检测到的动作片段总数,s'm '表示该片 段开始帧序号,e'm'表示该片段的结束帧序号,c'm'表示该片段的动作类别。 本发明方法利用尺度注意力空洞卷积网络进行视频动作检测,不同于现有方法的 主要表现有几方面:1)相比时序动作定位网络使用多尺度并行结构,该方法使用多层串行 结构的空洞卷积层,在实现多尺度上下文特征提取的同时降低了网络结构冗余;2)三维卷 积神经网络为骨干的方法往往进行时序下采样信息的提取,该方法提出用空洞卷积神经网 络在原始视频帧的细粒度水平进行上下文特征的提取;3)该方法提出从尺度与位置两种角 7 CN 111611847 A 说 明 书 4/6 页 度出发,结合注意力机制更好地提取视频帧和视频片段对应的时序特征信息;4)在动作片 段生成阶段使用基于多层次浸没的分水岭算法,能够并行地生成动作片段,执行效率比很 多现有方法更高。 本发明适用于基于深度学习方法的视频动作检测任务,其主要优点在于:1)结合 空洞卷积网络,不仅提取了能够更好反映视频数据时间维度和空间维度本征结构的时空运 动信息,还为特征保留了帧级别的细粒度;2)使用层尺度注意力机制,通过改变刻画当前帧 的时序上下文关系的尺度大小为每一帧选择恰当特征表示;3)使用帧位置注意力机制,通 过为每个动作片段内的视频帧添加权重以准确反映其特征表示。该方法从多个角度出发为 视频动作检测任务性能的提升提供了科学合理的方案,可广泛应用于安防监控、行为分析、 视频摘要、事件检测等实际应用场景。 附图说明 图1是本发明方法的流程图。