logo好方法网

一种基于原型分析的自监督多目三维人体姿态估计方法

技术摘要:
本发明公开了一种基于原型分析的自监督多目三维人体姿态估计方法,包括以下步骤:标定相机参数并对多目图像进行预处理;构建Two‑Stage的深度网络;构建3D‑Pose‑Refine模块。上述技术方案通过使用可学习关节点预测置信度的网络结构对三维姿态进行重构,提高了重构结  全部
背景技术:
三维人体姿态估计是计算机视觉中较为热门的一个研究领域,其应用也是十分广 泛,诸如动作识别,安防,人机交互等场景都有该技术的直接或间接应用。三维姿态估计仍 然面临诸多挑战,相较于二维姿态估计而言,其主要有两点不同:首先,三维坐标系下,其拥 有更大的姿态空间,具有歧义性;其次,对于数据驱动的算法,三维标注信息的获取是比较 困难的,这就使得基于监督学习的方法不适用于野外场景。 有资料显示,近年来,深度卷积网络在视觉中发挥着越来越重要的作用,加之出现 了大量的二维姿态数据集,二维人体姿态估计取得了较快的发展,已经达到了较高的准确 性。而面对三维姿态数据集稀缺的问题,一部分研究开始转向基于弱监督和自监督技术的 算法构建,其中主要包括基于二维投影一致性约束算法和基于多目几何约束的自监督算 法。 原型分析法是一种无监督学习方法。类似于聚类学习中找寻数据样本与类别中心 点的关联,原型分析法找寻一组数据样本的原型表示,同时满足数据样本为原型的凸线性 组合。有研究表明,三维姿态空间中语义性较强的的姿态存在边界特性,因此利用原型分析 方法构造三维姿态数据集的一组原型,以原型的凸组合表征和修正姿态是一个有效可行的 方案。 中国专利文献CN104952105B公开了一种“三维人体姿态估计方法和装置”。方法包 括:获得人体不同角度的多幅人体图像,该多幅人体图像为通过预置的多个采集不同方位 图像的图像采集装置从多个不同角度摄取的人体的多幅图像;对每幅人体图像分别进行二 维人体姿态估计,确定每幅人体图像中的该人体的目标二维人体姿态;依据预先构建的二 维人体姿态与三维人体姿态的映射库,确定目标二维人体姿态对应的目标三维人体姿态, 以恢复出人体在多个不同角度的多个目标三维人体姿态;将多个目标三维人体姿态组合为 一个三维人体,构建出该人体的三维姿态。上述技术方案面对三维姿态数据集稀缺的问题, 如野外场景下,无法有效构建人体的三维姿态。
技术实现要素:
本发明主要解决原有的三维姿态估计数据集稀缺,监督学习在野外场景下不适用 技术问题,提供一种基于原型分析的自监督多目三维人体姿态估计方法,通过使用可学习 关节点预测置信度的网络结构对三维姿态进行重构,提高了重构结果的鲁棒性;运用原型 分析方法构造出一组强大的三维姿态表示原型,利用该原型对三维姿态预测进行修正,实 现了一种高效的三维姿态估计自监督算法,在构造三维姿态原型时只需要三维骨架信息, 通过合成等方式直接构造出大量的三维姿态,进而方便地扩充原型的表征空间,提高了算 5 CN 111598995 A 说 明 书 2/5 页 法的自监督能力,实现了三维姿态估计网络的有效学习。 本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步 骤 (1)标定相机参数并对多目图像进行预处理; (2)构建Two-Stage的深度网络; (3)构建3D-Pose-Refine模块。 作为优选,所述的步骤1中标定相机参数包括根据裁剪和缩放参数调整对应的相 机投影参数,预处理包括利用人体检测器获得的包围盒裁剪图像。 作为优选,所述的步骤2中构建Two-Stage的深度网络包括: (2.1)构建2D-Pose-ResNet模块获取图像空间特征并回归出二维姿态热图; (2.2)构建可学习关节点预测置信度的3D-Pose-Reconstruction模块。 作为优选,所述的步骤2.1包括以下步骤: (2.11)初始化2D-Pose-ResNet模块; (2.12)通过卷基层对输入的图像进行空间特征提取,获得人体关节点的高级语义 特征表示,并最终以关节点热图的表示形式输出二维姿态估计结果;其中,2D-Pose-ResNet 模块是以ResNet深度卷积网络为主干的全卷积二维人体姿态估计模块。 (2.13)利用大型二维姿态估计数据集对2D-Pose-ResNet模块进行预训练,并在后 期自监督训练过程中进一步微调。 作为优选,所述的步骤2 .2中的3D-Pose-Reconstruction模块包含Joints- Confidence子模块和多目重构子模块。 作为优选,所述的步骤2.2包括以下步骤: (2.21)初始化可学习的Joints-Confidence子模块; (2.22)在不使用3D-Pose-Refine模块的前提下预训练Joints-Confidence网络; (2.23)结合二维姿态估计结果,关节点预测置信度以及相机参数信息,使用三角 测量求解最终的三维姿态估计。 作为优选,所述的步骤2.22中预训练Joints-Confidence网络包括以下步骤: (2.221)使用soft-argmax得到二维热图对应的二维关节点坐标; (2.222)使用二维关节点坐标直接进行三角测量得到三维姿态作为网络输出的真 值,以用于深度网络的监督学习; (2.223)将Joints-Confidence子模块得到的关节点预测置信度作用于由多目相 机投影矩阵和二维关节点坐标构成的矩阵之上,再进行三角测量得到预测的三维姿态;结 合方式如下: 其中,w为关节点预测置信度,A为相机参数与关节点二维坐标组成的矩阵,y帽为 要求解的三维关节点坐标,圆圈表示求哈达玛积; (2 .224)根据预测的三维姿态和真值三维姿态,计算均方误差作为损失函数,对 Joints-Confidence网络进行预训练。 作为优选,所述的步骤3中构建3D-Pose-Refine模块包括: 6 CN 111598995 A 说 明 书 3/5 页 (3.1)初始化三维姿态表示原型; (3.2)利用三维姿态表示原型对预测的姿态进行修正; (3.3)将修正后的三维姿态作为真值姿态,计算其与3D-Pose-Reconstruction模 块预测的三维姿态关节点间的距离均方误差并作为损失函数,通过自监督方式训练整个网 络,误差计算方式为 其中m为三维姿态中关节点的数量,p为真实姿态中的节点位置, 为预测的三维 姿态的节点位置。 作为优选,所述的步骤3.1中初始化三维姿态表示原型包括以下步骤: (3.11)给定一个大型的三维姿态数据集,标准化其中的三维姿态,并将其以距离 矩阵的形式表示; (3 .12)构造一组原型表示空间,使得任意三维姿态矩阵是原型的一个凸组合表 示,使用原型分析方法迭代优化以下能量函数得到最终的原型表示空间: 其中,N为三维姿态数据集中样本的数量,d为样本,α为样本被原型表示时的凸组 合系数;K为原型数量,每个原型对应着一个高维向量,其值为: 作为优选,所述的步骤3.2中姿态修正方法包括: (3.21)将预测的三维姿态标准化并以距离矩阵表示; (3.22)求解一组该姿态在原型表示空间中原型的凸组合,所述凸组合以原型的拓 扑形式表示,求得的凸组合参数中有一部分值近似为0;求解能量函数如下: 其中,d为预测3维姿态的距离矩阵表示,B为原型向量组成的矩阵,λ为拓扑能量权 重,s为原型与d的距离; (3.23)使用多维标度法将修正后的距离矩阵恢复为三维姿态的节点位置,并与预 测的三维姿态刚性对齐,得到最终修正的三维姿态。 本发明的有益效果是:通过使用可学习关节点预测置信度的网络结构对三维姿态 进行重构,提高了重构结果的鲁棒性;运用原型分析方法构造出一组强大的三维姿态表示 原型,利用该原型对三维姿态预测进行修正,实现了一种高效的三维姿态估计自监督算法, 7 CN 111598995 A 说 明 书 4/5 页 在构造三维姿态原型时只需要三维骨架信息,通过合成等方式直接构造出大量的三维姿 态,进而方便地扩充原型的表征空间,提高了算法的自监督能力,实现了三维姿态估计网络 的有效学习。
下载此资料需消耗2积分,
分享到:
收藏