(十三发凹非寺量子位报道|公众号QbitAI
在2D图像中进行3D目标检测很难吗?
现在,拿着手机就能做的,还是实时的。
这就是谷歌AI今天发布的MediaPipe Objectron,它是一款可以实时进行3D目标检测的pipeline。
分开来看:
MediaPipe是一个开源的跨平台框架,用于构建pipeline来处理不同模式的感知数据。
Objectron在移动设备上实时计算面向对象的3D边界框。
日常生活中的物体,都可以检测出来并看到效果。
通过移动终端,可以实时决定物体的位置、方向和大小。
该pipeline检测2D图像中的物体,通过机器学习模型推测姿势和大小。
那么,这具体是怎么做到的呢?
我们知道3D数据集相对于2D非常有限,才能获取真实世界的3D数据。
为了解决这个问题,谷歌AI的研究者使用移动增强现实( AR )会话数据( session data )开发了新的数据pipeline。
目前,大多数智能手机现在都具备增强现实的功能,在此过程中捕获摄像头姿态、稀疏的3D点云、估计的光线和平面等附加信息。
为了标记groud truth数据,研究人员构建了新的注释工具,并将其与AR会话数据一起使用,以便注释工具快速标记对象的3D边界框。
此工具在分割视图中显示2D视频帧,如下图所示。
左侧是三维边界框,右侧是三维点云、相机位置和检测平面的视图。
“注释和标记”工具在3D视图中绘制3D边界框,然后查看2D视频帧中的投影以确定其位置。
对于静态对象,只需在一帧中注释一个对象,然后从AR会话数据中使用地面真摄影机的姿态信息将其位置传达给所有帧。
这使得过程非常有效率。
AR组合数据的生成是为了提高预测的准确性,一种当前常用的方法是用组合的3D数据“填充”真实世界的数据。
但是,往往会产生不现实的数据,需要大量的计算工作。
Googleai提出了一种新的方法——AR合成数据生成。
由此,研究人员可以利用照相机的姿势、检测到的平面、估计的照明,生成在物理上可能的位置和与场景相符的照明位置。
该方法产生高质量的合成数据,与实际数据一起使用,可获得准确率提高的约10%。
为了实现这个目的,3D目标检测的机器学习pipeline制作了根据RGB图像预测物体姿势和物理大小的单阶段模型。
模型的主干部分具有基于MobileNetv2的编码器-解码器体系结构。
此外,还采用了通过检测和回归联合预测物体形状的多任务学习方法。
对于形状任务,基于可使用ground truth注释(例如分割)来预测对象的形状信号; 检测任务使用带注释的边界框,将高斯分布拟合到框中,并使用以框形重心为中心、与框的大小成比例的标准偏差。
检测的目标是预测该分布,其峰值表示目标的中心位置。
回归任务估计边界框8个顶点的2D投影。 为了获得边界框的最终3D坐标,也可以利用成熟的姿态估计算法EPnP,无需知道物体的尺寸即可恢复物体的3D边界框。
有了3D边界框,可以很容易地计算物体的姿势和大小。
该模型也非常轻便,可以在移动设备上实时运行。
MediaPipe检测和跟踪在移动设备上使用此模型时,由于每个帧的3D边界框的模糊性,模型可能会出现“抖动”。
为了缓解这种情况,研究人员采用了最近在“2D界”发表的检查跟踪框架。
该框架减少了在每个帧上运行网络的需要,允许使用更大、更准确的模型,并保持pipeline上的实时性。
另外:为了提高提高移动pipeline的效率,每几帧只运行一次模型来进行估计。
最后,这样一个好项目,当然是开源的!
戳下面传送门的链接,快去看看吧~
传送门GitHub项目地址: https://github.com/Google/media pipe/blob/master/media pipe/docs/object Ron _ mobile _ GPU
GoogleAI博客: https://ai.Google blog.com/2023/03/real-time-3d-object-detection-on-mobile.html
结束了
量子比特QbitAI 头条号合同
请关注我们。 第一,时间知道尖端技术的动向