里德
这是在计算机视觉领域的顶级会议ECCV 2023上发表的论文
fastervoxelpose:real-time3dhumanposeestimationbyorthographicprojection
的解读。
该论文由北京大学王亦洲项目组与微软亚洲研究院主管研究员王春雨合作完成,研究了多摄像机的三维姿态估计问题。 通过将3D体素空间复杂计算分解为2D和1D特征空间的计算,
这个方法比以前的方法实现了约10倍的高速化
满足实时APP应用的要求。
指向论文的链接:
https://arxiv.org/abs/2207.10955
代码链接:
3359 github.com/Alvin yh/faster-voxel pose
01
背景介绍
多摄像机视角下的三维人体姿态估计是计算机视觉领域的重要任务。 与二维简单情况相比,更需要有效地综合不同视角下的信息,准确重建三维坐标。 很多人的拥挤场景会带来模糊、遮挡等问题。 为了应对这一挑战,VoxelPose通过重投影热获得体素特征表示,直接使用3D CNN回归坐标,避免了显式的视角匹配。 但3D卷积网络计算开销较大,算法引入实际大场景时,无法满足体育教学等应用对实时性的要求。 为了提高算法的效率,本工作提出了正交投影( orthogonal projection )
基于的Faster VoxelPose消除了费时的3D卷积,在姿态估计误差略有增加的情况下,将运行速度提高到了原来的10倍左右。
图1 .给定多个摄像机同时输入的图像,任务需要推断每个人的三维姿势。 我们的模型采用两阶段方法,首先定位每个人的中心点,然后准确估计每个关节的位置。
02
方法概述
建立摄像机视角两点的对应是处理三维视觉任务的一般思路,在此基础上可以利用三角几何
( triangulation )
等方法估计三维人体姿态。 但是,这种方法对每个视角的估计误差很敏感。 与此相比,将产生的热量再投影到三维空间的方法具有较好的鲁棒性。 我们想保留这个优点,所以沿袭了VoxelPose的体素特征表现。 用简单的一个人的情况来说明正交投影的想法吧。 如图2(A )所示,假设肩关节点
是我们的估计目标。 通常,通过重投影构建的体素特征在该点周围具有明显的分布模式,应该可以通过3D卷积网络识别。 因此,如果将体素表示投影到三个彼此正交的平面上,则(
,
和
平面),将得到的二维特征图进行2D卷积,对应的位置点也具有较大的响应值。 通过融合三个平面的估计结果,可以组合最终的三维坐标。
图2.a )考虑到一个人的情况,可以将3D估计分解为3个正交的2D估计问题。 ) b )多人时,由于遮挡带来的额外挑战,可以通过俯瞰视野的3D目标检测来分离每个人的特征空间。
以上正交投影的方式非常朴素直接。 但在拥挤场景下,三个平面上的投影容易导致不同个体特征的重复、混淆,严重影响估计的精度。 受自上而下方法的启发,我们可以首先用框确定所有个体的牢固三维检测框,滤除无关特征。 为了迅速在三维空间中决定范围,我们利用了先验知识。 大多数情况下,两个人的中心点不在同一条垂直线上,所以不用担心边缘
轴向特征相互干涉。 因此我们制作了特征空间的鸟瞰图( BEV )
对水平方向的投影进行定位,如图2(b )所示,将bounding box的垂直高度固定为2m。 基于以上两种思路,分别设计了关节回归网络( Joint Localization Networks,JLN )
人体检测网络( Human Detection Networks,HDN ) ) ) ) ) ) ) )。 在第一阶段( hdn )中
我们的网络参考CenterNet的设计,在初步估计所有人中心的同时,输出偏移量和检测框的长度和宽度。 如图3所示。
图3.human检测网络
在阶段2(jln )中
我们基于每个人的3D检测框构建其体素特征表示,然后采用一个权重网络对三个平面进行权重融合,最终得到各关节点的坐标估计,如图4所示。
图4 .联合定位网络
03
实验结论
在CMU panoptic、Shelf、Campus三个数据集上进行了实验。 可视化结果如图5所示。 这是来自CMU Panoptic的测试数据,共有5个相机视角。 虽然摄像机2、4和5中有人被遮挡,但可以看出最终的中心点识别、bounding box检测和姿态估计是准确的。
图5 .从上到下分别是HDN推断的人体重心位置、JLN中各平面的推断结果和最终的融合结果,以及3D推断结果在原画上的投影。
我们的实验证明了所提出方法的优越性,定量结果如下表所示。 为了比较的公平性,测试时的batch size大小一律设定为1,在同一GPU环境下测定了CMU Panoptic的平均动作时间。 与原始的VoxelPose相比,我们提出的方法的平均关节误差从17.68mm上升到18.26mm,0.6mm的误差在实际应用中通常是可以接受的。 同时,处理帧速率FPS提高约为10倍。 此外,PlaneSweep还需要进行视角之间的匹配。时间虽然复杂度和摄像头数量存在平方线性相关,但我们的方法只是进行统一的再投影。 随着摄像机的数量越来越多,场景越来越大,所提方法的优点就越明显。
与表CMU Panoptic数据集上以前的方法进行比较。
04
总结
综上所述,本文优化了VoxelPose的网络结构,用2D或1D卷积代替了较重的3D卷积,在保持模型良好性能的前提下实现了明显的加速。 实验结果证明了我们方法的有效性,可以扩展到多摄像机、大场景的设置。 参考文献
[1] Tu,h .Wang,c .Zeng,w. voxel pose:towards multi-camera3dhumanposeestimationinwildenvironment.in:ecv
[2] Lin,j .Lee,g.h.多视图多个人3 dposeestimationwithplanesweepstereo.in:cvpr ( 2023 )。
[3] Wang,t .Zhang,j .Cai,y .Yan,s .Feng,j. direct multi-view multi-person3dhumanposeestimation .
[4] Joo,h .Liu,h .Tan,l .Gui,l .Nabbe,b .Matthews,I .Kanade,t .Nobuhara,s .Sheikh
图片|叶航,朱文指挥
计算和数字警报( cvda ) )。