(
电影互联网Nweon 2023年11月14日
我们居住的地球拥有雄伟的山脉、壮丽的大海和宁静的森林。 你能想象小鸟飞过这种细节丰富的三维景观时看到的景色吗? 计算机能学会合成这样的视觉体验吗? 显然,这种能力可以为游戏和VR体验提供新的内容。
在名为“Infinite Nature”的研究中,谷歌探索了可以从静止照片中学习这种Flythroughs漫游视图的生成。 这是前所未有的划时代能力。 谷歌将潜在的研究问题称为Perpetual View Generation持续视图生成。 一个场景的单个输入视图如何混合与通过该场景的任意长度的用户控制的3D过程相对应的一组逼真的输出视图呢?
生成Perpetual View Generation的连续视图非常困难。 这是因为需要在大型地标(如山脉)的另一侧生成新内容,并以高真实感和高分辨率进行渲染。
经过不断努力,由谷歌、康奈尔大学和加州大学伯克利分校组成的团队在ECCV 2023上展示的InfiniteNature Zero,从一个种子图像中,使用了只经过静止图像训练的系统,实现了高分辨率、高质量的自由模拟如下一段视频所示:
*InfiniteNature Zero生成的Flythroughs漫游视图。 获取自然场景的单个输入图像,并合成相应的飞越路径以生成新的场景内容。
背景:从视频中学习3D飞越
事实上,谷歌很早就开始探索相关方案。 在2023 ICCV大会上,团队展示了自己的研究《Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image》。 这是一个基于视频学习的方案。 他们收集了无人机从沿岸海岸线飞行拍摄的在线视频,由AI学习合成了类似上述实际视频的Flythroughs飞行漫游视图。
这个在线视频被称为aerialcoastlineimagerydataset ( acid )。 但是,为了学习如何混合动态响应所需3d相机路径的场景,不能简单地将视频视为原始像素的集合。 团队需要计算包括每个帧的相机位置的基本三维几何图形。
研究的基本思想是逐步学习Flythroughs飞行漫游视图的生成。 指定起始视图(如下图中的第一幅图像)后,团队将首先使用单个图像的深度预测方法计算深度贴图。 然后,使用深度贴图将图像向前渲染到中心所示的新相机视点,并从该新视点生成新图像和深度贴图。
但是,这个中间图像有问题。 可以看到物体后面的区域,但在初始图像中看不到该区域。 另外,我们比现在更接近物体,所以非常模糊。 我们拉伸前一帧的像素,渲染比现在更近的大对象。
为了解决这个问题,谷歌训练了获取低质量的中间图像,输出完整的高质量图像和对应的深度图的神经图像细分网络。 然后,可以重复步骤,将合成图像作为新的起点。 因为团队细化了图像和深度图,所以这个过程可以根据需要重复很多次。 当camera进一步进入场景时,会自动学习并生成山脉、岛屿、海洋等新风景。
谷将该方法称为“渲染-细分-重复”。 接下来,谷歌将使用ACID数据集来训练这种渲染-优化-重复合成方法。 特别是从数据集中采样一个视频,然后从该视频中采样一帧。 然后,使用该方法渲染沿着与地面真实视频相同的相机轨迹移动到场景的新视图,并将渲染帧与相应的地面真实帧进行比较,并导出训练信号。 研究人员还包括区分合成帧和实际图像的抵抗性设置。
因此,如项目的网页所示,系统可以生成优秀的Flythroughs飞行漫游视图。 与传统的视频合成方法不同,该方法允许用户交互控制相机,并生成更长的相机路径。
从静态照片学习Flythroughs飞行漫游视图
很难找到具有合适相机运动类型的高质量视频,单个视频帧的质量通常无法与故意拍摄的自然照片进行比较。 因此,在《InfiniteNature-Zero: Learning Perpetual View Generation of Natural Scenes from Single Images》这项研究中,由谷歌、康奈尔大学和加州大学伯克利分校组成的团队,基于上述渲染细分迭代策略,设计了不需要视频就可以从静止图像的集合中学习连续视图合成的方法。 他们把这个方法称为InfiniteNature Zero,不需要视频。
最初,全是孤立的照片,如何训练模型生成场景的Flythroughs漫游呢?
为了解决这个问题,小组提出了重要的见解。 拍摄图像,渲染形成循环的相机路径,也就是说路径可以回送,知道最后的图像和第一个图像来自同一个视点,沿着路径的最后的合成图像应该和输入图像相同。 此“cycleconsistency”提供了训练约束,以帮助模型在视图生成的每个步骤中填充缺失区域,并学习提高的图像分辨率。
但是,使用此相机循环进行训练还不足以生成增长且稳定的视图序列,因此团队采用了考虑较长相机路径而不是循环的对策。 具体来说,当从开始帧渲染t帧时,研究人员将优化渲染-优化-重复模型,以使分类器网络无法区分哪些是开始帧,哪些是最终合成帧。 最后,为了实现提高结果的真实性,添加了经过训练的组件以生成高质量的天空区域。
有了这样的见解,团队将使用从互联网上大量获得的风景照片来训练InfiniteNature Zero。 以下视频显示了InfiniteNature Zero的效果。 如您所见,可以沿任意长度的相机路径生成美丽多彩的自然风景。 谷歌指出,与以前的工作和以前的视频合成方法相比,InfiniteNature Zero的结果在内容质量和多样性方面有了明显的改善。
结论
相关论文
: infinite nature-zero:learningperpetualviewgenerationofnaturalscenesfromsingleimages
小组总结说,这项研究有一系列令人兴奋的未来方向。 例如,该方法当前仅基于前一帧和深度图合成场景内容,而没有持久的后3D表示。 因此,团队接下来将研究能够生成完整、真实、一致的3D世界的算法。