谷歌推出基于单目的ai 3d建模方案,谷歌ai3d检测

(十三发凹非寺量子位报道|公众号QbitAI

在2D图像中进行3D目标检测很难吗?

现在,拿着手机就能做的,还是实时的。

这就是谷歌AI今天发布的MediaPipe Objectron,它是一款可以实时进行3D目标检测的pipeline。

分开来看:

MediaPipe是一个开源的跨平台框架,用于构建pipeline来处理不同模式的感知数据。

Objectron在移动设备上实时计算面向对象的3D边界框。

日常生活中的物体,都可以检测出来并看到效果。

通过移动终端,可以实时决定物体的位置、方向和大小。

该pipeline检测2D图像中的物体,通过机器学习模型推测姿势和大小。

那么,这具体是怎么做到的呢?

我们知道3D数据集相对于2D非常有限,才能获取真实世界的3D数据。

为了解决这个问题,谷歌AI的研究者使用移动增强现实( AR )会话数据( session data )开发了新的数据pipeline。

目前,大多数智能手机现在都具备增强现实的功能,在此过程中捕获摄像头姿态、稀疏的3D点云、估计的光线和平面等附加信息。

为了标记groud truth数据,研究人员构建了新的注释工具,并将其与AR会话数据一起使用,以便注释工具快速标记对象的3D边界框。

此工具在分割视图中显示2D视频帧,如下图所示。

左侧是三维边界框,右侧是三维点云、相机位置和检测平面的视图。

“注释和标记”工具在3D视图中绘制3D边界框,然后查看2D视频帧中的投影以确定其位置。

对于静态对象,只需在一帧中注释一个对象,然后从AR会话数据中使用地面真摄影机的姿态信息将其位置传达给所有帧。

这使得过程非常有效率。

AR组合数据的生成是为了提高预测的准确性,一种当前常用的方法是用组合的3D数据“填充”真实世界的数据。

但是,往往会产生不现实的数据,需要大量的计算工作。

Googleai提出了一种新的方法——AR合成数据生成。

由此,研究人员可以利用照相机的姿势、检测到的平面、估计的照明,生成在物理上可能的位置和与场景相符的照明位置。

该方法产生高质量的合成数据,与实际数据一起使用,可获得准确率提高的约10%。

为了实现这个目的,3D目标检测的机器学习pipeline制作了根据RGB图像预测物体姿势和物理大小的单阶段模型。

模型的主干部分具有基于MobileNetv2的编码器-解码器体系结构。

此外,还采用了通过检测和回归联合预测物体形状的多任务学习方法。

对于形状任务,基于可使用ground truth注释(例如分割)来预测对象的形状信号; 检测任务使用带注释的边界框,将高斯分布拟合到框中,并使用以框形重心为中心、与框的大小成比例的标准偏差。

检测的目标是预测该分布,其峰值表示目标的中心位置。

回归任务估计边界框8个顶点的2D投影。 为了获得边界框的最终3D坐标,也可以利用成熟的姿态估计算法EPnP,无需知道物体的尺寸即可恢复物体的3D边界框。

有了3D边界框,可以很容易地计算物体的姿势和大小。

该模型也非常轻便,可以在移动设备上实时运行。

MediaPipe检测和跟踪在移动设备上使用此模型时,由于每个帧的3D边界框的模糊性,模型可能会出现“抖动”。

为了缓解这种情况,研究人员采用了最近在“2D界”发表的检查跟踪框架。

该框架减少了在每个帧上运行网络的需要,允许使用更大、更准确的模型,并保持pipeline上的实时性。

另外:为了提高提高移动pipeline的效率,每几帧只运行一次模型来进行估计。

最后,这样一个好项目,当然是开源的!

戳下面传送门的链接,快去看看吧~

传送门GitHub项目地址: https://github.com/Google/media pipe/blob/master/media pipe/docs/object Ron _ mobile _ GPU

GoogleAI博客: https://ai.Google blog.com/2023/03/real-time-3d-object-detection-on-mobile.html

结束了

量子比特QbitAI 头条号合同

请关注我们。 第一,时间知道尖端技术的动向

其他教程

adobe盗版危害,adobe与万兴科技

2022-12-18 5:45:34

其他教程

手机上可以学3d建模吗,女生适合学3d建模吗

2022-12-18 5:47:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索