突破AI和机器理解的边界,牛津博士论文学习重建和分割3D物体。

选自arXiv作者:杨博机心编译
让机器具备像人类一样感知3D物体和环境的能力,是人工智能领域的重要课题。牛津大学计算机系博士生柏杨在毕业论文中详细解释了如何对3D物体进行重建和分割,从而赋予机器感知3D环境的能力,突破了人工智能和机器理解的界限。
赋予机器像人类一样感知三维现实世界的能力,是人工智能领域一个根本性的、由来已久的主题。考虑到视觉输入有不同的类型,如2D或3D传感器获取的图像或点云,该领域的一个重要目标是理解3D环境的几何结构和语义。传统方法通常使用人工构建的特征来估计物体或场景的形状和语义。然而,这些方法很难推广到新的物体和场景,也很难克服视觉遮挡这一关键问题。今年9月从牛津大学计算机系毕业的博士生柏杨在毕业论文《Learning to Reconstruct and Segment 3D Objects》中研究了这个课题。与传统方法不同的是,作者通过在大规模真实世界3D数据上训练的深度神经网络来学习通用和鲁棒的表示,进而理解场景和场景中的物体。总的来说,本文开发了一系列新的数据驱动算法来实现机器对真实世界3D环境的感知。作者说:“这篇论文可以说是突破了人工智能和机器理解的界限。这篇博士论文有143页,六章。机器之心对本文的核心内容做了简单介绍,有兴趣的读者可以阅读原文。
地址:https://arxiv.org/pdf/2010.09582.pdf论文概述在第二章中,作者首先回顾了前人在三维物体重建和分割方面的研究工作,包括单视图和多视图三维物体重建、三维点云分割、对抗生成网络(GAN)、注意机制和集合上的深度学习。此外,本章最后还介绍了本研究在单视图/多视图三维重建和三维点云分割方面相对于SOTA方法的创新之处。基于单视图的三维物体重建在第三章中,作者提出了一种基于GAN的深度神经结构,用于从单个深度视图中学习物体的密集三维形状。作者将这种简单但有效的模型称为3D-RecGAN,它将跳过连接的3D编码器-解码器与对抗性学习相结合,以单个2.5D视图生成完整的细粒度3D结构。模型网络体系结构的训练和测试过程如下图所示:
然后,作者使用条件对抗训练来改进由编码器-解码器估计的3D形状。用于3D形状细化的鉴别器的结构图如下:
最后,作者将提出的3D-RecGAN方法与SOTA方法进行了比较,并对控制变量进行了研究。在合成数据集和真实数据集上的大量实验结果表明,该模型具有良好的性能。基于多视图的三维物体重建在第四章中,作者提出了一种新的基于注意机制的神经模型,用于从多视图中推断出更好的三维物体形状。这个简单却高效的注意力聚合模块被称为AttSets,其结构如下图所示。与现有方法相比,该方法能够学习从不同图像中聚合有用信息。
此外,研究人员还引入了两阶段训练算法,以确保在给定一定数量的输入图像的情况下,预测的3D形状的鲁棒性。在多个数据集上的实验表明,该方法能够准确地恢复物体的三维形状。学习从点云中分割3D对象在第五章中,研究人员提出了一个新的框架来识别大规模3D场景中的所有单个3D对象。与现有的研究相比,该研究框架可以直接同时检测、分割和识别所有目标实例,而无需任何复杂的前/后处理步骤。研究人员已经在几个大规模真实数据集上证明了该方法与基线相比的性能改善。作者简介本文作者柏杨,现任香港理工大学计算机系助理教授。先后毕业于北京邮电大学和香港大学,分别获得学士和硕士学位,后赴牛津大学计算机系攻读博士学位。他的导师是尼基特里戈尼教授和安德鲁马卡姆教授。作为第一论文和合著论文,杨博被《计算机视觉国际期刊》、NeurIPS和等学术会议接受。谷歌的学术主页显示,他有22篇论文,引用次数超过400次。
论文目录如下:

其他教程

2005年重庆车展车模(重庆2011摩托车展模特)

2022-8-30 23:50:34

其他教程

SPI怎么玩?理解时机并自由运用。

2022-8-30 23:52:36

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索