基于尺度注意力空洞卷积网络的视频动作检测方法-好方法网

技术摘要：
本发明公开了基于尺度注意力空洞卷积网络的视频动作检测方法。本发明方法首先对视频采样获得帧图像序列并根据片段位置标记获得视频片段，然后分别构建层尺度注意力动作片段模型和构建帧位置注意力动作识别模型，根据上述模型并结合分水岭算法依次获得帧图像的加权特征全部
背景技术：
人类动作视频的理解对安防监控、行为分析等诸多领域有重要作用，已成为计算机视觉领域的前沿研究课题。然而未经剪辑的真实视频往往包含与人类动作无关的背景片段，将会影响视频内容的正确理解。针对这一问题，视频动作检测方法不仅对视频内的动作进行分类，还可以定位动作实例在视频中发生的开始与结束时间。视频动作检测任务通常以视频帧序列作为输入，以“动作种类-开始帧-结束帧”的形式输出多组片段的检测结果，其处理过程可分为两个阶段：动作片段生成和动作片段识别。前者一般输出片段的开始帧和结束帧，后者则输出片段的动作种类。通常，运用视频动作检测方法可以帮助更好地理解视频内容，包括视频摘要、动作识别、内容标注、事件捕捉等任务。例如，对视频摘要任务，其关键片段可通过视频动作检测获取，这样可以准确定位到最能反映视频内容的关键帧或片段，从而提高视频摘要的质量。视频动作检测针对视频帧图像进行处理且需要刻画各帧之间的时序关系，涉及高维度的张量计算。传统机器学习方法采用人工提取的特征如轨迹特征在提取效率上已经无法满足实时性能要求，并且特征提取过程脱离模型训练，从而造成模型的泛化性能较弱。近年来，端到端学习的卷积神经网络(CNN：Convolutional Neural Network)飞速发展，能够被用于弥补传统方法的缺陷。例如：基于三维卷积神经网络或光流场信息进行时序动作信息的特征提取效率更高；；基于深度强化学习的候选片段生成方案，能够端到端地自适应完成动作片段生成任务；时序动作定位网络为解决动作片段长短不一问题而提出多尺度并行的动作片段生成结构，大幅度地刷新了该领域的最佳性能。已有的视频动作检测方法主要存在以下不足：第一，在特征提取阶段，为了提取动作的时序特征使用的三维卷积操作会在构建的网络模型中逐层固定地降低输入视频的时序维度，约束了所提取特征在时序上的尺度大小，过小的尺度可能造成上下文语义割裂，过大的尺度可能造成不同语义的干扰；第二，在动作片段生成阶段，对于不同时长的动作决定动作发生与否及其种类的关键点即关键帧位置及其持续时长(如连续关键帧)往往也不同，常规平均池化操作忽略了关键点的权重问题；第三，现有方法对不同尺度大小的片段使用不同的网络结构(如空洞卷积网络)提取动作片段的特征表示，将大大增加网络构建和训练的时间和空间成本。因此，需要设计一种既能提高视频动作检测性能又能节省计算和存储开销的方法。
技术实现要素：
本发明的目的就是针对现有技术的不足，提供一种基于尺度注意力空洞卷积网络的视频动作检测方法，可以结合空洞卷积网络捕捉视频数据的时空运动信息，并通过尺度 5 CN 111611847 A 说　明　书 2/6 页注意力准确刻画视频帧的时序上下文关系，从而有效检测视频中动作片段并准确判定其类别。本发明方法首先获取视频数据集合，然后进行以下操作：步骤(1) .对视频采样处理，获得帧图像序列，并根据片段位置标记获得视频片段；步骤(2) .构建层尺度注意力动作片段模型，输入为完整视频的帧图像序列，输出为完整的视频帧图像的加权特征表示及各帧是否为动作帧的概率；步骤(3) .构建帧位置注意力动作识别模型，输入为视频片段帧图像的加权特征表示，输出为视频片段所属动作类别的概率；步骤(4) .对新视频根据层尺度注意力动作片段模型和分水岭算法生成视频片段，并由帧位置注意力动作识别模型判定片段动作类别，获得动作检测结果。进一步，步骤(1)具体是： (1-1).对单个视频以每秒i帧的采样率处理为帧图像序列其中N表示帧图像总数，fn表示序列中第n幅宽为w高为h的RGB三通道帧图像，n＝1,2,…,N， i＝20～40； (1-2) .根据视频片段位置标记获取视频片段，包括动作片段和背景片段；其中视频片段的类别 J为动作类别数目，j＝0,1,2,…,J，j≠0时为动作类别序号，j＝0时为背景类别序号；M为动作片段和背景片段的总数目，对于第m个视频片段，sm是该片段开始帧序号，em是该片段结束帧序号,cm是该片段对应的类别，m＝1,2,…,M。再进一步，步骤(2)具体是： (2-1) .以视频帧为单位逐帧处理完整视频的帧图像序列，由视频片段位置标记分别获得动作片段和背景片段的开始帧序号和结束帧序号，对动作片段内的视频帧记为动作帧，对背景片段内的视频帧记为背景帧； (2-2) .层尺度注意力动作片段模型以考虑时序关系的多层空洞卷积神经网络为主干，首先通过从低层到高层逐帧处理的方式依次获取帧图像序列各帧不同尺度的上下文特征表示，即第t帧图像在第k层的特征表示为其中ck是第k层的通道数，wk和hk分别是第k层特征表示的宽和高；然后通过层尺度注意力机制获得完整视频的加权特征表示其中第t帧图像的加权特征表示为是第k层的尺度注意力权重， K是多层空洞卷积网络的总层数,K≥1； (2-3) .将第t帧图像的加权特征表示St经过全连接层后的输出向量作为层尺度注意力动作片段模型的最后一层的输入，该层采用Softmax(·)函数输出视频帧是否属于动作帧的概率其中e表示自然底数，y0是背景帧的概率，y1是动作帧的概率，Zq表示向量Z的第q个元素，并将第n个视频帧是否属于动作帧的概率记为之后计算模型的交叉熵损失函数其中为真实标记，表示该帧为 6 CN 111611847 A 说　明　书 3/6 页动作帧，表示该帧为背景帧；利用随机梯度下降算法优化训练层尺度注意力动作片段模型，通过反向梯度传播更新模型参数。更进一步，步骤(3)具体是： (3-1) .依次从完整视频的加权特征表示中利用视频片段位置标记L的开始帧序号和结束帧序号获取各视频片段的加权特征表示 (3-2) .帧位置注意力动作识别模型以考虑帧位置注意力机制的多层神经网络为主干，其输入为视频片段各帧的加权特征表示该模型通过计算帧位置注意力获得视频片段的加权特征表示其中是第t帧的位置注意力权重， (3-3) .将视频片段的加权特征表示Xm经过全连接层后的输出向量作为帧位置注意力动作识别模型的最后一层的输入，该层采用Softmax(·)函数输出为视频片段所属动作类别j的概率以及属于背景类别的概率然后计算模型的交叉熵损失其中是真实标记，若视频片段属于类别j 则为1，否则为0；利用随机梯度下降算法优化训练帧位置注意力动作识别模型，通过反向梯度传播更新模型参数。又进一步，步骤(4)具体是： (4-1) .对于新视频利用(1-1)获得其帧图像序列将该序列输入步骤 (2)的层尺度注意力动作片段模型并通过(2-3)计算得到视频帧图像序列是否属于动作帧的概率序列然后对此概率序列使用基于多层次浸没的分水岭算法，即概率值高于设定阈值τ，τ＝0～1，且时序连续的视频帧聚合成为视频片段；同时用多个不同0～1范围的阈值生成不同长短的M′个视频片段，及其开始帧序号s′和结束帧序号e′； (4-2) .将(4-1)的视频片段帧图像序列输入步骤(3)的帧位置注意力动作识别模型得到视频片段中的帧图像属于各类别的概率并将最大概率值对应的类别作为视频片段所属的类别c'；对判定为某个具体动作的视频片段输出其开始帧序号和结束帧序号； (4-3) .对新视频先经过(4-1)获得视频片段，然后经过(4-2)获得视频动作检测结果其中m'是视频片段的序号，M′是检测到的动作片段总数，s'm '表示该片段开始帧序号，e'm'表示该片段的结束帧序号，c'm'表示该片段的动作类别。本发明方法利用尺度注意力空洞卷积网络进行视频动作检测，不同于现有方法的主要表现有几方面：1)相比时序动作定位网络使用多尺度并行结构，该方法使用多层串行结构的空洞卷积层，在实现多尺度上下文特征提取的同时降低了网络结构冗余；2)三维卷积神经网络为骨干的方法往往进行时序下采样信息的提取，该方法提出用空洞卷积神经网络在原始视频帧的细粒度水平进行上下文特征的提取；3)该方法提出从尺度与位置两种角 7 CN 111611847 A 说　明　书 4/6 页度出发，结合注意力机制更好地提取视频帧和视频片段对应的时序特征信息；4)在动作片段生成阶段使用基于多层次浸没的分水岭算法，能够并行地生成动作片段，执行效率比很多现有方法更高。本发明适用于基于深度学习方法的视频动作检测任务，其主要优点在于：1)结合空洞卷积网络，不仅提取了能够更好反映视频数据时间维度和空间维度本征结构的时空运动信息，还为特征保留了帧级别的细粒度；2)使用层尺度注意力机制，通过改变刻画当前帧的时序上下文关系的尺度大小为每一帧选择恰当特征表示；3)使用帧位置注意力机制，通过为每个动作片段内的视频帧添加权重以准确反映其特征表示。该方法从多个角度出发为视频动作检测任务性能的提升提供了科学合理的方案，可广泛应用于安防监控、行为分析、视频摘要、事件检测等实际应用场景。附图说明图1是本发明方法的流程图。

相关推荐