从arXiv中选择
机心编辑部
NeRF家族的360全景3D效果越来越滑。
在此期间,CVPR 2022公布了今年的论文接收结果,这意味着投稿的论文终于度过了静默期。 很多作者感叹,现在可以在社交媒体上谈论我们的论文了。
今天介绍的论文来自谷歌研究所和哈佛大学。 据谷歌研究人员、撰写论文的Jon Barron介绍,他们开发了一种叫做Mip-NeRF 360的模型。 该模型产生了无界场景的真实渲染,产生了360的真实效果和美丽的深度图。
以下是几个效果图。
这样好的效果什么时候能用于VR头盔呢
作者现在可以在“浏览器http://NeRF.live (或桌面GPU ) https://NV labs.github.io/instant-ngp/)”中实时渲染nerf ” ”
论文概要
神经辐射场( NeRF )通过在基于坐标的多层感知器( MLP )权重中编码场景的体积密度和颜色,合成非常逼真的场景渲染。 该方法在真实感视图合成方面取得了很大进展[30]。 但是,NeRF使用3D点对MLP的输入建模。 渲染不同分辨率的视图时,这可能会导致锯齿。
基于此问题,Mip-NeRF扩展了NeRF,不再推理沿锥体的体积断头体[3]。 这样做会提高质量,但NeRF和mipNeRF在处理无边界场景时会出现问题。 无边界场景的摄影机指向哪个方向,场景内容都可能位于什么位置。
本文提出了mip-NeRF的扩展——mip-NeRF 360,使得能够生成这些非边界场景的真实渲染(图1 )。
将NeRF这样的模型应用于大的非边界场景时,会出现以下三个重要问题。
参数化问题。 因为mip-NeRF需要将3D场景坐标映射到有界区域,所以无界360度场景占用无限大的欧式空间区域。 效率问题。 巨大的细节场景需要巨大的网络容量,训练期间频繁沿各条射线走查询巨大的MLP网络会产生巨大的消耗。 模糊性问题。 无边界360度场景的背景区域明显比中心区域的光稀疏。 该现象恶化了从2D图像重构3D内容的固有模糊性。 基于上述问题,研究人员提出了mip-NeRF的扩展模型,利用非线性场景参数化、在线蒸馏和新的基于应变的正则化器克服了无界场景带来的挑战。 新型号被称为“mip-NeRF 360”。 该研究针对摄影机围绕点旋转360度的场景,与mip-NeRF相比,均方误差减少了54%,从而可以为复杂的无边界现实世界场景生成真实的合成视图和深度详细的地图。
论文链接: https://arxiv.org/pdf/2111.12077.pdf视频解读: https://www.youtube.com/watch? v=zBSH-k9GbV4技术详情
要使mip-NeRF在无界场景中正常运行有三个主要问题,本文的三个主要贡献旨在解决这些问题。 接下来,我们结合来自作者的解密视频来看看吧。
第一个问题是,在表示方面,mip-NeRF应用于有边界的坐标空间,而不是无界场景,研究人员利用看起来像扩展版的卡尔曼滤波器将mip-NeRF的高斯函数扭曲到非欧式空间。
第二个问题是场景通常是精细的,如果希望将mip-NeRF用于无边界场景,可以使用更大的网络,但这会降低训练速度。 因此,在优化阶段,研究者建议训练小MLP来限制空间大小,这可以使训练速度提高三倍。
第三个问题是,在更大的场景中,3D重建的结果会变得模糊,出现伪像。 为了解决这个问题,研究人员引入了一种新的正则化器,专门用于mip-NeRF中的辐射间隔。
首先谈谈第一个问题吧。 例如,在具有三台摄影机的平地场景中,mip-NeRF会将高斯函数投影到场景中。 在大场景中,高斯函数会远离原点延伸。 这是因为mip-NeRF需要基于有界的坐标空间,高斯函数在一定程度上是各向同性的。
为了解决这个问题,研究人员定义了一个扭曲函数,用于将蓝色圆Unaffected Domain的外坐标平滑映射到橙色圆Contracted Domain内。 扭曲函数的目的是消除mip-NeRF的高斯非线性间隔的影响。
为了将该失真应用于mip-NeRF的高斯函数,研究人员使用了扩展版的卡尔曼滤波器。 据此,没有边界的场景被限制在橙色的圆内,橙色的圆内是非欧式空间,其坐标是MLP的输入。
为了理解论文中的在线蒸馏模型,首先需要介绍mip-NeRF是如何训练和采样的。 在mip-NeRF中,首先需要定义可以理解为直方图中端点的、大致均匀分布的区间集。 如图所示,每个间隔的高斯被发送到mlp,得到直方图权重w^c和颜色c^c。 然后,对这些颜色进行加权,得到像素点的颜色C^c。 然后,这些权重被重采样,得到一组新的区间。 此外,在场景中包含内容的地方,端点会聚集在一起。
该重采样可以多次进行,但为了方便,这里只显示一个。 这个新区间的数据发送到同一个MLP,得到一组新的权重和颜色,通过加权得到像素点的颜色C^f。 mip-NeRF只是将所有渲染像素值与输入图像的实际像素值之间的重建损失最小化。 只有细小的颜色用于渲染最终图像是非常浪费的。
粗略绘制需要监督学习的唯一理由是指导精细直方图的采样,这种观察刺激了文章中模型的训练和采样过程。 研究人员从均匀分布的直方图集中,将它们发送到提出的MLP中,生成权重集,但不生成颜色。
这些权重将被重新采样。 这个过程可以重复很多次,但视频只显示了一个重新招聘过程。 根据他们提出的mlp的最后一组区间被送到另一个mlp,这个mlp的行为与mip-NeRF中的完全相同,他们将其称为NeRF mlp。 NeRF mlp提供了一组可用于渲染像素颜色的权重和颜色。
研究人员通过监督学习,使像素渲染得到的颜色接近真实图像的颜色。 他们不是在监督文中提出的mlp,而是使NeRF mlp的输出权重和监督输出权重一致来重构图像。 此设置意味着您只需频繁访问小mlp,而不需要频繁访问大NeRF mlp。
为了使模型发挥作用,需要一个损失函数,鼓励具有不同区间划分的直方图一致。 为了说明这一点,如上图所示,他们在左侧构筑了真正的一维分布,在右侧有两个该真正分布的直方图。
由于这两个直方图刻画了相同的分布,研究者可以对它们之间的关系做出有力的断言。 例如,上面强调的区间的权重,肯定不会超过下面的直方图中与其重叠的区间的权重的总和。 基于这个事实,他们可以用一个直方图的权重建立另一个直方图权重的上限。
我再声明一次,如果这两个直方图同时刻画了同一真实分布,则上界必须确定。
因此,在训练期间,研究者在他们提出的mlp和NeRF mlp分别生成的直方图之间造成损失,该损失将处罚违反这里用红色表示的边界的额外部分。 这样,鼓励他们学习什么是他们提出的mlp有效的上界。
基于nerf mlp学习的体场景密度,新模型中用于解决模糊问题的组件是光线直方图上的简单正则化器,它简单地最小化了沿光线的所有点之间的加权绝对距离,每个直方图都是增量函数这里所示的这个二重积分不容易计算,但是可以导出很好的封闭形式,计算很简单。
实验结果
表1显示的是数据集内测试图像的平均PSNR、SSIM [46]和LPIPS [49]。 由此可见,本文提出的模型大大优于传统的类似NeRF的模型,相对于mip-NeRF均方误差减少了54%,训练时间仅为1.92倍。
表2通过自行车场景对模型进行了烧蚀研究,并在此总结了研究结果。
a )删除L_prop会导致灾难性的失败,因为根本没有监视MLP。
b )删除L_dist会导致图像质量下降(请参见图5 )。
c ) Mildenhall等人提出的正则化器[30]将高斯噪声(=1)注入密度,但效果不及我们的正则化器。
d )删除研究者提出的MLP,使用单一的MLP对场景和权重进行模型化不会降低性能,但会比提出的MLP增加约2倍的训练时间。
e )删除MLP,使用mip-NeRF方法训练本文提出的模型(所有粗略尺度应用L_recon而不是L_prop ),速度和准确性下降,证明研究者使用的监控策略是合理的。
f )使用小型nerf MLP ( 256个隐藏单元而不是1024个隐藏单元)加速了培训,但质量下降了。 这表明了大容量MLP在对详细场景建模时的价值。
g )完全删除IPE并使用NeRF位置编码[30]会导致性能下降,并显示基于mip-NeRF而不是NeRF的价值。
h )通过消除收缩和增加位置编码频率来限制场景会降低准确性和速度。
I )使用DONeRF [31]中提出的参数化和对数线间隔会降低精度。
j )使用NeRF [48]提出的双MLP参数化,优于本文的技术——,但由于MLP的验证时间加倍,所以成本的训练时间加倍(为了保持一定的模型容量,研究者将两个MLP的隐藏单元数
详情请参考原论文。