作者:康斯坦丁
来源:公众号@计算机视觉工作室|类帖子
论文主题: hybrid pose:6 dobjectposeestimationunderhyrepresentations
论文地址:在“3D视觉工坊”公众号后台,回复“6D对象姿态估计”即可直接下载。
摘要:本文介绍了HybridPose。 这是一种新的6D对象姿态估计方法。 HybridPose利用混合中间表示来在输入图像中表示不同的几何信息,如关键点、边缘向量和对称对应关系。 与单个表示相比,如果一种类型的预测表示不准确(例如,由于遮挡),那么本文的混合表示可利用更多的不同特征。 HybridPose利用强大的回归模块来过滤预期的中间表示异常值。 本文通过证明在不牺牲整体性能的前提下,用同一个简单的神经网络可以预测所有的中间表示,展示了混合动力的鲁棒性。 与最新的姿态估计方法相比,HybridPose运行时间具有可比性,准确性高。 例如,在Occlusion Linemod数据集上,本方法实现了30 fps的预测速度,平均add(-s )精度为79.2%,比目前最新方法提高高67.4%。
一、概要本文介绍了用多个中间表现来表现输入图像中的几何信息并进行姿势推定的混合姿势。 除了关键点之外,混合路径还合并了输出相邻关键点之间的边缘向量的预测网络,如图1所示。 由于大多数对象都具有(部分)反射对称性,超光还利用了预期的密集的每像素对应关系,反映了像素之间的基本对称关系。
图1. HybridPose预测键,与边缘向量对称性相对应。 ) a )中,本文表示输入的RGB图像,其中感兴趣的对象(钻头)被部分隐藏。 在( b )中,红色标记表示被预测的2D键。 在( c )中,边向量由所有关键点之间的有效连接图定义。 在( d )中,对称对应关系将对象上的每个2D像素连接到该对称对应对象。 为了说明,在该例子中,仅从5755个预测对象像素中描绘了50个随机样本的对称对应关系。 预测姿态( f )是通过将预测与3D模板对齐得到的,从而解决了非线性优化问题。
二、方法HybridPose的输入为图片I,其中包含已知类对象,该图片通过针孔摄像头用已知固有参数拍摄。 假设对象类别具有标准坐标系,即三维点云。 超子在下输出图像对象的6D摄影机姿态( RIso(3,tIR3 ) )。 其中ri是旋转组件,tI是平移组件。
2.1方法概要如图2所示,HybridPose由预测模块和姿态回归模块构成。
图2 .方法概述。 HybridPose由中间表现预测网络和姿势回归模块构成。 预测网络以图像为输入,输出预测的关键、边缘向量和对称对应关系。 姿态回归模块由初始化子模块和优化子模块构成。 初始化子模块使用预测的中间表示法求解线性系统得到初始姿态。 改进子模块采用GM鲁棒范数进行优化(9),得到最终的姿态预测。
2.2混合显示本节对“混合姿势”中使用的3种中间显示形式进行说明。
关键。 第一个中间表示由键组成,这些键广泛用于姿态估计。 给定输入图像I,本文训练一个神经网络fk(I(R2|K|)。 预测| K |预定义集合的二维关键点坐标。 在本论文的实验中,HybridPose使用了被称为PVNet的现成模型。 该模型是基于密钥的最新姿态估计器,可以利用投票方案预测可见和不可见密钥。
边缘。 第二个中间表示由沿预定义图表的边向量组成,该向量显式模拟一对关键帧之间的位移。 如图2所示,HybridPose利用简易网络Fe(I(R2|E|)。 预测2D图像平面的边缘向量。 | E |表示给定图形的边数。 在本论文的实验中,e是完全相连的图,| e|=|k|(|k|1 )/2。
对称性的应对。 第三中间表示由反映基底反射对称性的预测像素方向的对称性对应构成. 在本文的实验中,HybridPose扩展了FlowNet 2.0的网络体系结构,该体系结构将密集的像素流与PVNet预测的语义掩码相结合。 通过在遮挡区域内预测像素方向的流量,可以得到对称性对应关系。 与前两种表示形式相比,对称对应的数量非常多,被遮挡的对象也有丰富的约束。 但是,对称仅约束对象旋转分量的两个自由度。 对称对应需要与其他中间表示相结合。
网络设计概要。 在本论文的实验中,fk(I )、Fe) I )、fS都是基于ResNet的,具体的实现细节将在4.1节中讨论。 可训练参数在除最后一个卷积层之外的所有参数之间共享。 因此,引入边缘预测网络Fe(I )和对称预测网络fS的成本微乎其微。
2.3将比特姿势恢复为混合姿势的第二个模块将预测的中间表现{K,e,S}作为输入,对输入图像I输出6D对象姿势riso(3),tIR3。 与最新的姿态回归方法一样,混合姿态是初始化子模块和优化子模块的组合。 两个子模块都利用所有预测要素。 优化子模块还利用对预测要素中的异常值建模的强大功能。
以下,在本文中,将规范坐标系中的3D关键坐标表示为pk,设为1k| K |。 为了使符号清晰,本文将最初的模块输出表示为预测的关键点,与边缘向量的对称对应关系为PKR2,1k| k |,veR2,1e| e |,( 均质坐标由照相机固有矩阵标准化。
初始化子模块。 该子模块利用RI,tI和预测元素之间的约束,在精细空间中对RI,tI进行求解并交替优化以将其投影到se(3)上。 为此,本文对各类型预测因素引入以下差异向量。
这里,es和et是边e的端点,ve=pet-pesR3,nrR3是规范系统中反射对称平面的法线。
HybridPose修改了EPnP的框架,生成了初始姿势。 通过组合来自预测要素的这三个制约,本文生成了Ax=0形式的线性系统。 其中,a是矩阵,其维数为[3|k|3|e|||]12。 x=[rT 1,rT 2,rT 3,tT] T 121是一个向量,其中包含旋转和平移参数。 为了建模关键点、边缘向量、对称对应之间的相对重要性,本文分别利用超参数E和S对(2)和(3)进行缩放,生成a。
根据EPnP,本文将x
其中vi是a的第I个小的右奇异向量。 理想的是,当预测元素中没有噪声时,N=1,x=v1是最佳的解决方案。 但是,这种策略在给出吵闹的预测时效果不佳。 和EPnP一样,本文选择N=4。 为了计算最佳的x,本文通过以下目标函数的交替优化程序优化潜在变量i和旋转矩阵r
其中,RiR33是由vi的前9个元素重建而成。 得到最佳的i后,本文将得到的精细变换P4 i=1iRi射影到刚体变换上。 由于篇幅限制,本文将细节推迟到补充资料。
子模块优化。 )5)组合混合中间表示,得到了良好的初始化,但没有直接对预测因素中的异常值进行模型化。 另一个限制是[1]和[2]。 它们不能将投影误差最小化。 也就是说,是关于键和边的。 投影误差对基于边界坐标的姿态估计很有效。
“初始对象捕捉”( Rinit,tinit )的优点是优化子模块以执行局部优化,并优化对象捕捉。 本文介绍了关于k、e、s投影误差的两个差异向量。
这里,PR,t:R3R2是从当前姿势( r,t )导出的投影算子。
为了修整预测元素中异常值,考虑广义的German-Mcclure (或GM )鲁棒函数
此设置解决了以下用于姿态优化的非线性优化问题:
其中K、E和S是关键点、边缘和对称对应关系的单个超参数。 k和e表示附加在关键点和边缘预测上的协方差信息。 kxka=(xtax )1 2 .当无法利用预测的协方差时,本论文只要设定k=e=I2即可。
从R init和t init出发,微调子模块采用Gauss-Newton法进行数值优化。
2.4 HybridPose训练在本节中,使用标记数据集T={I,( Kgt I,Egt I,Sgt I,) Rgt I,tgt I ) }来训练HybridPose预测网络和超级参数使用I、Kgt I、Egt I、Sgt I和( Rgt I、tgt I ) ),分别表示RGB图像、标记的关键点、边缘、对称对应关系、真值标定物体姿态。 一种常见的策略是端到端训练整个模型,包括使用环路网络对优化过程建模,并在对象的姿态输出和中间表示中引入丢失项。 但是,本文发现这种策略并不可取。 训练集中预测元素的分布与测试集中的分布不同。 即使慎重调整预测要素的监视和最终的对象姿势之间的权衡,适合训练数据的姿势回归模型也不能很好地概括测试数据。
初始化子模块。 将Rinit I和tinit I作为初始化子模块的输出。 本文通过解决以下优化问题,得到最佳的超参数E和S
由于超参数数量少,且姿态初始化步骤不接受显式公式,本文采用有限差分法计算数值梯度。 即,将梯度拟合到超参数样本的周围。 现在的解决方案。 然后,本文采用回溯搜索进行优化。
子模块优化。 设={K,E,S}为该子模块的超参数。 对于各例证( I,) Kgt I,Egt I,Sgt I,( Rgt I,tgt I ) ),)9)的目标函数表示为fi(c,)。 在此,c=(cT,CT ) TR6是RI和tI的局部参数化
优化模块解决了无约束优化问题,其最优解决方案由临界点和临界点周围的损耗表面决定。 本文考虑两个简单的目标。 第一个目标力f/c*(0,) 0,换言之,真值标定大致是临界点。 第二个目标最小化条件数(2f/2c*(0,) )=max2f/2c ) 0,) /min2f/2c ) 0,)。 该目标将各个最佳解周围的损失面规则化,促进fI(c,)的大收敛半径。 根据这一设定,本论文为了使最优化,制作了以下目标函数
这里设定为10-4。 然后,将与[10]中使用的相同的策略应用于优化[11]。
三、实验评价本节介绍了对所提方法的实验评价。 4.1节介绍了实验设置。 第4.2节对HybridPose和其他6D姿态估计方法进行了定量和定性的比较。 4.3节提出了烧蚀研究,以研究对称对应、边缘向量和修饰子模块的有效性。
3.1实验性设置数据集。 本文考虑了6D姿态估计问题中广泛使用的两个常见的基准数据集,即Linemod和Occlusion Linemod。 输出张量的第一个通道是二进制分割掩码m。 在m(x,y )=1的情况下,( x,y )对应于输入图像I的关注物体上的像素。 分割掩模使用交叉熵损失进行训练。
第二个2 | K |输出张量中的通道给出了所有| K |的x和y分量的关键点。 应用基于投票的关键点定位方案,从该2 | K |通道张量和分割掩码m中提取2D关键点坐标。
接下来的2 | E |输出张量中的通道给出了所有| E |的x分量和y分量的边,本文将其表示为Edge。 I(0I|e|)是边的索引。 然后呢
包含第I个边缘向量的每像素预测的二元组,提取其平均值作为预测边缘。
张量中最后两个过程定义对称对应关系的x分量和y分量。 本文将这种对称对应关系的两个信道的“映射”表示为Sym。 设( x,y )为输入图像中感兴趣的对象上的像素,即m ) x,y )=1。 设x=sym(0,x,y )且y=sym ) 1,x,y ),则在本文中,( x,y )和( xx,y )被认为关于反射对称平面对称。
尺子。 本文使用两个指标来评估HybridPose的性能。
1.add(-s )首先计算由预测姿态和真值标定姿态分别转换的两套点集之间的距离,然后提取平均距离。 当对象具有对称姿态的模糊性时,从两个变换后集合之间的最近点开始计算平均距离。 add(-s )精度被定义为计算出的平均距离小于模型直径10%的样本的百分比。
2 .消融研究计算并报告角旋转误差|||log(rtgtri )2 ||。 预测姿势( RI,tI )与真值标定姿势( Rgt,tgt )相对平移误差ktI-tgtk d。 其中,d是物体直径。
3.2结果分析如表1、表2和图3所示,HybridPose可以实现正确的姿态估计。 在Linemod和遮挡Linemod中,HybridPose的平均add(-s )精度分别为94.5和79.2。 Linemod的结果优于所有其他方法,除了从中间表示回归姿态的最新方法。 Occlusion-Linemod的结果优于所有最新方法。
图3 .姿态恢复的结果。
表1 .定量评价:线性模型上add(-s )的准确性
表2 .定量评估:阻断linemod数据集的add(-s )准确性
在线模式下的基线比较。 HybridPose优于PVNet,PVNet是本文中用于预测关键点的主干模型。 所有对象类的改进都是一致的,表明与单个中间表示相比,使用混合具有明显的优势。 HybridPose在对抗DPOD方面显示出了竞争性的结果,在5个对象级别上获得了冠军。 该特定数据集中DPOD的优点来自数据扩展和显式建模的输入图像和投影图像之间的紧密对应关系,可以满足bothof不阻挡对象的情况。 详细分析表明,HybridPose显示次优性能的对象类别是Linemod中最小的对象。 这表明本文流水线中使用的基于像素的描述符受到图像分辨率的限制。
Occlusion-Linemod的基线比较。 HybridPose大大优于所有基线方法。 关于add(-s )的精度,本文的方法使PVNet从40.8提高到79.2,提高为94.1%。 此扩展明确显示了超点在遮挡对象中的优点。 不可见关键点的预测可能是噪声,可见关键点可能无法单独为姿态回归提供足够的约束。 HybridPose优于Occlusion Linemod的最新姿态估计器dpod 67.4 %。 一种解释是,基于DPOD的基于渲染的方法对于被遮挡的对象没有效果。 这是因为很难通过数据扩展和相应的计算对遮挡建模。
驾驶时间。 在配备16核IntelXeonE5-2637 CPU和GeForce GTX 1080 GPU的台式机上,HybridPose预计将持续0.6秒钟的中间显示,并预计将持续0.4秒钟的反馈。 假设批量大小为30,则平均处理速度为每秒30帧,并且能够进行实时分析。
3.3消融实验本文继续进行消融研究。 表3总结了使用不同预测中间表现形式的HybridPose的性能。 由于线模型上不同方法的性能接近饱和,本文所进行的烧蚀研究基于Occlusion线模型,揭示了不同预测元素定位姿态优化的影响。 Linemod的烧蚀研究被推迟到材料的供应。
表3 )具有不同中间表达形式的定性评价。
关键。 作为基线法,本文首先只利用关键信息推测对象的姿态。 如表3所示,平均绝对旋转误差为1.648度,平均相对平移误差为0.100。
关键点和对称性。 将对称对应关系添加到关键点可以大大提高旋转组件的性能。 相对性能提高了3.52%,并且在所有对象类别中这一改进几乎是一致的。 的改进清楚地表明了对称对应的有效性。 另一方面,使用键和使用键对称性时的转换误差几乎没有变化。 一种解释是,对称仅约束三个旋转参数的两个自由度,而平移参数不受约束。
完整的模型。 将边向量添加到关键帧和对称对应关系中可以显着提高旋转和平移估计中提高的性能。 自旋和面包的相对性能分别提高了25.85%和44.12%。 一种解释是边缘向量在平移和旋转两者中提供更多的约束。 边向量表示相邻关键帧的位移并提供更多的回归信息,因此与关键帧相比,边向量表示平移并为平移提供更多约束。 结果,翻译错误大幅减少。 与只对旋转提供两个约束的对称对应相比,由于边向量将三个自由度约束到旋转参数,因此旋转估计的性能为提高。 另外,改进旋转估计有助于改进子模块的GM鲁棒功能,以识别关键预测的异常值。
四.总结和未来工作本文介绍了HybridPose。 这是一种利用关键点、边缘矢量和对称对应关系的6D姿态估计方法。 实验表明,HybridPose具有实时预测功能,在准确性上优于目前最新的姿态估计方法。 HybridPose对遮挡和极端姿势稳健。 将来,本文将扩展超材料以包含更多的中间表示,如形状基本体、法线、平面等。 未来工作的另一个可能方向是在不同表现形式之间提高一致性,这是自我监控在网络训练中的损失。
本文只进行学术共享,如有侵权请联系删除文。
下载1
在“3D视觉工坊”公众号后台回复: 3D视觉
,
也就是说,能够下载关于摄像机校准、三维重建、立体视觉、HDD、深度学习、点云后处理、多视图几何等方向的3D视觉相关资料。
下载2
在“3D视觉工作室”公众号后台回复: 3D视觉github资源汇总
,
可下载结构光、标定源代码、缺陷检测源代码、深度估计与深度互补源代码、点云处理相关源代码、立体匹配源代码、单眼3D检测、基于点云的3D检测、6D姿态估计摘要等。
下载3
在“3D视觉工作室”公众号后台回复:摄像头标定
,
可以下载自己的摄像机标定学习课件和视频网站; 后台回复:立体匹配
,
可以下载自己的立体匹配学习课件和视频网站。