同济和阿里的CVPR 2022最佳学生论文奖研究了什么?是对这部作品的解读。

机器心脏释放
作者:陈汉生(同济大学研究生、阿里达摩院研究实习生)
CVPR 2022奖揭晓后不久,同济大学研究生、阿里达摩院研究实习生陈汉生为我们解读了最佳学生论文奖。
本文解读了我们获得CVPR 2022年最佳学生论文奖《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》的作品。本文的问题是基于单幅图像来估计物体在三维空间中的姿态。
在现有方法中,基于PnP几何优化的姿态估计方法通常通过深度网络提取2D-3D相关点。然而,由于最优位姿解在反向传播过程中存在不求导的问题,很难实现以位姿误差为损失的稳定的网络端到端训练。此时,2D-3D相关点依赖于其他代理损失的监督,这不是姿态估计的最佳训练目标。针对这一问题,我们从理论上提出了EPro-PnP模块,该模块输出姿态的概率密度分布,而不是单一的最优姿态解,从而用可推导的概率密度代替不可推导的最优姿态,实现稳定的端到端训练。EPro-PnP是通用的,适用于各种特定的任务和数据。它可以用来改进现有的基于PnP的位姿估计方法,也可以利用其灵活性训练一个全新的网络。从更一般的意义上来说,EPro-PnP本质上是将常用的分类softmax带入连续域,理论上可以扩展到训练具有嵌套优化层的一般模型。
论文链接:https://arxiv.org/abs/2203.13254代码链接:https://github.com/tjiiv-cprg/EPro-PnP I .前言
我们研究三维视觉中的一个经典问题:基于单幅RGB图像定位三维物体。具体来说,给定一个具有3D物体投影的图像,我们的目标是确定从物体坐标系到相机坐标系的刚体变换。这种刚体变换称为物体的姿态,表示为Y,它包含两个部分:1)位置分量,可以由31位移向量T表示,以及2)方向分量,可以由33旋转矩阵r表示。
针对这一问题,现有的方法可以分为两类:显式和隐式。显式方法也可以称为直接姿态预测,即利用前馈神经网络(FFN)直接输出物体姿态的各个分量,通常是:1)预测物体的深度,2)找出物体中心点在图像上的2D投影位置,3)预测物体的方位(方位的具体处理方法可能比较复杂)。利用标记了物体真实姿态的图像数据,可以设计一个损失函数直接监督姿态预测结果,轻松实现网络的端到端训练。然而,这样的网络缺乏可解释性,并且很容易在小数据集上过度拟合。在三维物体检测任务中,显式方法占主导地位,尤其是对于大规模数据集(如nuScenes)。
隐式方法是基于几何优化的姿态估计方法,最典型的是基于PnP的姿态估计方法。在这种方法中,首先需要在图像坐标系中找到N个2D点(I点2D标记为
),同时在物体坐标系中找出与之关联的N个3D点(I点3D标记为
),有时需要获得每对点的相关权重(第I对点的相关权重记录为
)。根据透视投影约束,这n对2D-3D加权相关点隐含地定义了对象的最佳姿态。具体来说,我们可以找到使重投影误差最小化的物体姿态。

在…之中
,它表示加权投影误差,并且是面向姿态的。
功能。
表示具有内部参考的相机投影功能,
表示元素的乘积。PnP方法通常用于已知物体几何形状的6自由度姿态估计任务。
基于PnP的方法也需要前馈网络来预测2D-3D相关点集。与直接的姿态预测相比,这种深度学习结合传统几何视觉算法的模型具有非常好的可解释性,泛化性能相对稳定。然而,以往工作中模型的训练方法存在缺陷。许多方法通过构造代理损失函数来监督中间结果X,这不是pose的最优目标。例如,如果对象的形状是已知的,则可以预先选择对象的3D关键点,然后可以训练网络来找到对应的2D投影点。这也意味着代理损失只能学习X中的一些变量,因此不够灵活。如果我们不知道训练集中物体的形状,需要从零开始学习X中的一切怎么办?
显隐式方法和显隐式方法的优点是互补的。如果可以通过监督PnP输出的姿态结果,对网络进行端到端的训练,学习关联点集X,就可以结合两种方法的优点。为了达到这个目的,最近的一些研究使用隐函数求导来实现PnP层的反向传播。然而,PnP中的argmin函数在某些点上是不连续和不可导的,这使得反向传播不稳定,直接训练难以收敛。
二。EPro-PnP方法介绍
1.EPro-PnP模块
为了实现稳定的端到端训练,我们提出了端到端概率PNP (EPro-PnP)。其基本思想是,隐式姿态被视为一种概率分布,其概率密度
x对是可导的。首先,基于重投影误差定义姿态的似然函数:
如果没有使用先验信息,姿态的后验概率密度是似然函数的归一化结果:
可以注意到,上述公式类似于常用的分类softmax公式。
接近,其实EPro-PnP的本质就是把softmax从离散阈值移到连续阈值,并且求和
用积分取而代之。
2.KL散度损失
在训练模型的过程中,已知物体的真实姿态。
,可以定义目标姿势分布。这时候就可以算出KL散度了。
作为用于训练网络的损失函数(由于
固定的,也可以理解为交叉熵损失函数)。瞄准目标
当接近狄拉克函数时,基于KL散度的损失函数可以简化如下:
如果指南如下:
可以看出,损失函数由两项组成,第一项(记为
)试图降低pose的真实价值。
重投影误差,第二项(记为
)试图增加预测的姿势。
每个地方的重投影误差。两个方向相反,效果如下图(左图)所示。打个比方,右边是我们在训练分类网络时经常用到的分类交叉熵损失。
3.蒙特卡罗姿势损失
应该指出,KL损失的第二项
中有一个积分,没有解析解,必须用数值方法近似。考虑到通用性、准确性和计算效率,我们采用蒙特卡罗方法通过采样来模拟姿态分布。
具体来说,我们采用了一种重要性采样算法,——自适应多重重要性采样(AMIS),并计算了K个加权样本。
的姿势样本
我们称这个过程为蒙特卡罗PnP:
因此,第二项
它可以大约是重量。
的功能,以及
它可以向后传播:
姿势采样的可视化效果如下图所示:
4.PnP求解器的导数正则化。
虽然蒙特卡罗PnP损失可以用来训练网络得到高质量的姿态分布,但是在推理阶段,仍然需要通过PnP优化器得到最优的姿态解。常用的高斯-牛顿及其衍生算法采用迭代优化求解。
它的迭代增量由代价函数决定。
由的一阶和二阶导数决定。要制作PnP的解决方案
更接近真实值
成本函数的导数可以被正则化。正则化损失函数设计如下:
其中,
是高斯-牛顿迭代的增量,与成本函数的一阶和二阶导数相关,并且可以传播回来,
表示距离测量,使用平滑L1表示位置,余弦相似度表示方向。在
当不一致时,损失函数促进迭代增量。
指向实际真值。
3.基于EPro-PnP的姿态估计网络
我们在6-DOF姿态估计和3D目标检测子任务中使用不同的网络。其中,针对6自由度位姿估计,ICCV 2019的CDPN网络经过EPro-PnP稍加修改和训练,用于烧蚀研究;对于3D目标检测,基于ICCW2021的FCOS3D,设计了一种新的可变形相关检测器,证明了EPro-PnP可以在不知道物体形状的情况下,直接训练网络学习所有2D-3D点和相关权重,从而展示了EPro-PnP在应用中的灵活性。
1.用于六自由度姿态估计的密集相关网络。
网络结构如上图所示,只是在原CDPN的基础上修改了输出层。原始CDPN使用被检测对象的2D帧来剪切区域图像,并将其输入到ResNet34 backbone中。最初的CDPN将位置和方向分离成两个分支。位置分支使用直接预测的显式方法,而方向分支使用密集相关和PnP的隐式方法。为了研究EPro-PnP,修改后的网络只保留了密集的相关分支,其输出为3通道3D坐标图和2通道相关权重,其中相关权重经过了空间softmax和全局权重缩放。增加空间softmax目的是为了加权
进行归一化,使其类似于注意力图,可以聚焦于相对重要的区域。实验表明,权重归一化也是稳定收敛的关键。全局权重缩放反映了姿势分布。
专注的程度。网络可以仅通过EPro-PnP的蒙特卡罗位姿损失来训练,此外,可以加入导数正则化,并且当物体的形状已知时,可以加入额外的3D坐标回归损失。
2.用于三维目标检测的变形相关网络。
网络结构如上图所示。一般来说是基于FCOS3D检测器,参考可变形DETR设计的网络结构。在FCOS3D的基础上,保留了它的中心层和分类层,用对象嵌入层和参考点层代替了原来的姿态预测层,用于生成对象查询。参考可变形DETR,我们通过预测相对于参考点的偏移(即
)。通过注意操作将采样特征聚集成对象特征,用于预测对象级别的结果(3D分数、重量标度、3D盒子大小等。).此外,将采样后的每个点的特征添加到对象嵌入中,并由自身注意处理,以输出每个点对应的3D坐标。
和相关的权重。预测
所有这些都可以通过EPro-PnP的蒙特卡罗姿态损失训练得到,该方法不需要额外的正则化就可以收敛,具有很高的精度。在此基础上,可以增加导数正则化损失和辅助损失,进一步提高精度。
四。实验结果
1,6自由度姿态估计任务
使用LineMOD数据集进行实验,并与CDPN基线进行严格比较。主要结果如上。可以看出,增加端到端训练的EPro-PnP损耗可以显著提高准确率(12.70)。继续增加导数正则化损失,进一步提高精度。在此基础上,利用原CDPN的训练结果初始化并增加历元(保持历元总数与原CDPN完整的三阶段训练一致)可以进一步提高准确率,其中预训练CDPN的优势来自CDPN训练时额外的面具监督。
上图是EPro-PnP和各种领先方式的对比。EPro-PnP是由落后的CDPN改进而来,精度接近SOTA,结构简单。它基于PnP进行姿态估计,不需要显式的深度估计或姿态精化,因此在效率上具有优势。
2.三维目标检测任务
用nuScenes数据集进行实验,与其他方法的对比结果如上图所示。EPro-PnP不仅与FCOS3D相比有显著改进,而且超越了当时SOTA和FCOS3D的另一个改进版本PGD。更重要的是,EPro-PnP是目前唯一一个使用几何优化方法在nuScenes数据集上估计姿态的算法。由于nuScenes数据集的规模很大,采用端到端训练的直接姿态估计网络已经有了很好的性能,我们的结果表明基于几何优化的端到端训练模型在大数据集上可以取得更好的性能。
3.视觉分析
图为EPro-PnP训练的稠密关联网络的预测结果。其中,相关权重图
突出图像中的重要区域,类似于注意机制。从损失函数分析可以看出,高光区域对应的是重投影不确定性低、对姿态变化敏感的区域。
3D目标检测结果如上图所示。左上视图显示了由变形相关网络采样的2D点位置,红色表示该位置。
X分量较高的那个带你,绿色表示。
垂直分量较高的点。一般绿点位于物体的上下两端,主要作用是通过物体的高度计算出物体的距离。这个特征不是人为指定的,而是自由训练的结果。右图为俯视图的探测结果,其中蓝云图像显示了物体中心点的分布密度,反映了物体定位的不确定性。一般来说,远处物体的定位不确定性大于近处物体的定位不确定性。
EPro-PnP的另一个重要优点是可以通过预测复杂的多峰分布来表达取向的模糊性。如上图所示,由于物体本身的旋转对称性,在Barrier的取向上经常出现两个相差180的峰;圆锥体本身没有特定的朝向,所以预测结果分布在各个方向;行人不是完全旋转对称的,但由于图像不清晰,很难判断前后,有时会出现双峰。这个概率使得EPro-PnP不需要对对称物体的损失函数做任何特殊处理。
动词(verb的缩写)摘要
EPro-PnP将原来不可导的最优姿态转化为可导的姿态概率密度,使得基于PnP几何优化的姿态估计网络可以实现稳定灵活的端到端训练。EPro-PnP可用于三维物体的一般姿态估计。即使3D对象的几何形状未知,也可以通过端到端的训练来获得对象的2D-3D相关点。所以EPro-PnP拓宽了网络设计的可能性,比如我们的修正联想网络,这是过去无法训练的。此外,EPro-PnP还可以直接用于改进现有的基于PnP的姿态估计方法,通过端到端的训练释放现有网络的潜力,提高姿态估计精度。更一般地说,EPro-PnP本质上是将常用的分类softmax带入连续域,不仅可以用于其他基于几何优化的3D视觉问题,理论上还可以扩展到训练嵌入优化层的一般模型。

其他教程

网课怎么假装网卡(学生上网课假装网卡)

2022-9-4 12:57:27

其他教程

风华绝代的一生(靓丽的人生)

2022-9-4 12:59:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索