继AI将文字转换为图像之后,AI现在可以将文字转换为3D场景。
苹果发布了新的AI系统GAUDI,可以在室内生成3D场景。 最近,苹果AI团队发布了最新的AI系统GAUDI。 GAUDI基于用于生成沉浸式3D场景的神经架构NeRFs,可以根据输入的文字提示生成3D室内场景。 GitHub地址: https://github.com/apple/ml-gaudi到目前为止,OpenAI的DALL-E 2和Google的Imagen和Parti等AI系统显示了文字生成图像的能力2023年底,谷歌通过Dream Fields首次展示了新的AI系统。 该系统组合了NeRF生成3D视图的能力和OpenAI的CLIP评价图像内容的能力。 苹果AI团队推出的GAUDI更进一步,可以生成沉浸式3D场景的神经架构,并根据文字提示创建3D场景。 例如,您可以输入“穿过走廊”或“上楼梯”来观看执行此操作的3D场景的视频。 秒变3D? 苹果将发布最新的AI生成模式GAUDI,根据文字提示制作3D场景_语言开发_核可乐_InfoQ精选文章
据了解,NeRFs是一种主要用于3D模型和3D场景的神经存储介质,可以从多个摄像机的角度进行渲染。 到目前为止,将生成AI扩展到完全没有约束的3D场景是一个未解决的问题。 这背后的原因之一是它被限制在摄像机的位置上。 对于单个对象,可以将每个相机的位置映射到圆顶,但在3D场景中,这些相机的位置受障碍物(如对象或墙)的限制。 针对这个问题,GAUDI模型的解决方案是预测摄像机姿态解码器可能的摄像机位置,并确保输出是3D场景架构的有效位置。 虽然目前GAUDI生成的3D场景视频质量较低,但这表明AI未来有新的可能性,AI下一阶段可能会有更多惊喜。
GAUDI背后的技术的实现是根据苹果公司的介绍,GAUDI的目标是在给定3D场景轨迹的经验分布时,学习生成模型。 论文地址: https://arxiv.org/pdf/2207.13751.pdf在具体技术实现中,X={xi{0,n}表示一组定义的经验分布样本,其中每个样本xi代表一个轨迹每个轨迹xi被定义为对应的RGB、深度图像和6DOF摄影机姿态的可变长度序列。 苹果AI团队将生成模型的任务分为两个阶段。 首先,获得每个采样x X的潜在z=[zscene,zpose]表示,以表示场景照射场和单个展开向量处的位置和姿态。 其次,给出潜在的Z={zi{0,n}}的组,以学习分布p(z )为目的。
1 .优化辐射场和摄像机姿态的潜在表示,使每个样本x X (也就是经验分布中的每个轨迹)寻找潜在表示z Z。 为了得到这种潜在的表示,小组采用了编码器审查,将z解释为在优化问题[ 2,35 ]中找到的自由参数。 为了将潜在的z映射到轨迹x,设计了一种网络架构,即解码器,可用于分析相机的姿态和辐射场参数。 这里的解码器体系结构由三个网络组成,如下图所示。
一种解码模型体系结构,可将相机姿势从3D几何体和场景外观中分离出来。 解码器包含三个子模块。 解码器d将表示场景zscene的潜在代码作为输入,通过3平面潜在代码w生成3D空间的分解表示。 辐射场网络f以p R3为输入点,以w为条件,通过体绘制(公式1 )预测密度和信号a。 最后,我们用互联网c解码照相机的姿势。 网络c将归一化后的时间位置s[-1,1 ]作为输入,在zpose (表示整个轨迹x上的摄像机姿态)的条件下,预测摄像机姿态t^sse )3)。
相机位解码器网络c (由c参数化)负责在轨迹中的正规化时间位置s[-1,1 ]中的相机位姿势t(sse )3)的预测。 在此,zpose条件表示轨迹整体的摄像机位姿。 要确保c的输出是有效的摄影机姿态,请输出表示方向的规格化四元数qs和3D变换向量ts的3D向量,例如se(3)中的元素。 场景网络d (根据d的参数化)负责辐射场网络f的条件变量的预测。 该网络输入表示场景zscene的潜在代码,可以预测在轴对齐的三个平面上表示[ 37,4 ] wR3sf。 与空间维度S x S和f信道的3个特征图[Wxy,Wxz,Wyz]相对应,各个轴分别与xy,xz,yz平面对齐。 辐射场网络f (根据f参数化)的作用是使用公式1的体绘制议程重建图像级目标。 在此,f的输入与p R 3为三个平面,表示W=[Wxy,Wxz,Wyz]。 给出预测辐射度的3D点p=[i,J,k],将p正交投影到w内的各平面上,执行双线性采样。 这三个双线性采样向量连接至wxyz=[wxy(I,j ),wxz ( j,k ),wyz ( I,k ) ] R 3F,以调整辐射场函数f。 在这里,苹果AI团队将f作为输出密度值和信号a的MLP来实现。 要预测像素值v,请使用体绘制议程。 请参阅公式1。 其中3D点表示特定深度u处光线的方向r。 相对于像素的位置。 方程1
团队还确立了去噪重建目标,以共同优化d、c、f和{z}i={0,n}。 详见方程2。 请注意,虽然潜在的z针对每个样本x独立优化,但网络d、c和f的参数均分于所有样本x X。 与以前的自动解码方法[ 2,35 ]不同,每个潜在z在训练过程中都会受到与所有潜在模型的经验标准差成比例的附加噪声干扰,即z=zn(0,STD(z ) ),导致收缩显示( 46 )。 此时,控制分布z Z的熵与重构项的折衷。 当=0时,z的分布是指示函数的集合; 对于 0,潜在空间是非平凡结构。 使用较小的 0值强制获得潜在空间,内插样本(或具有较小与经验分布的偏差的样本,即有可能从样本的随后产生模型获得的样本)由解码器支持。
方程2
利用两种不同的损失函数优化参数d、f、c和潜在变量z Z。 第一个损失函数Lscene测量zscene编码的辐射场与轨迹x im s中的图像的重建。 其中s表示帧在轨迹中的规格化位置。时间位置。 需要指定实际的照相机姿势Ts。 RGB使用l2损失函数,4 depth 1使用l1损失函数。 第二个损失函数Lpose测量由zpose编码的姿态t ̄s与实际姿态之间的摄像机姿态重建差。 平移中使用l2损失,照相机姿势的标准化四元数部分使用l1损失。 理论上,归一化的四元数不一定是唯一的,但在训练中没有发现经验问题。
2 .提前学习通过公式2的目标最小化生成的一组潜在的z Z。 目的是通过学习获得生成模型p(z ),捕捉其分布),也就是说,将公式2的目标最小化后,将z Z解释为潜在空间中的经验性分布形式。 为了对p(z )进行建模,团队采用了去噪扩散概率模型( DDPM ) ) 15 )。 这是基于最近出现的得分匹配) 16 )的模型。 该模型可以通过大量但有限的时间步数学习马尔可夫链的解扩。 根据DDPMs,这一反向过程等同于学习具有一系列绑定权重的去噪自动解码器。 DPM中消除噪声的监控目标允许学习这种( z )简单和可扩展。 由此,能够学习能够无条件/有条件地生成3D场景的强力的生成模型。 为了训练前面的pp(z ),使用在式3中定义的目标函数。 在方程3中,t表示步骤时间,其中~n(0,I )是噪声,t是具有固定调度的噪声幅度参数,p表示去噪模型。
方程3
推理期间,团队按照DDPM的推理过程对z~pp(z )进行采样。 首先对zT ̄n(0,I )进行采样,然后迭代应用p对zT进行梯度去噪,解扩马尔可夫链得到z0。 接下来,通过将z0作为输入提供给解码器架构,重建辐射场和相机路径。 在以学习潜在变量p(z|y )的条件分布为目标的情况下,给出配对数据( z,y ) y,通过在去噪模型中追加条件变量y而得到p ) z,t,y )。