ai制作3d渐变立体文字(ai做3d文字)

在AI把文字变成图片之后,另一个AI可以把文字变成3D场景。
苹果发布全新AI系统高迪,可在室内生成3D场景。近日,苹果AI团队发布了最新的AI系统高迪。高迪基于NeRFs,一种生成沉浸式3D场景的神经架构,可以根据输入文本提示生成3D室内场景。GitHub地址:https://github.com/apple/ml-gaudi在此之前,OpenAI的DALL-E 2和Google的Imagen和Parti等AI系统展示了从文字生成图片的能力,但生成的内容仅限于2D图像和图形。2021年底,谷歌首次通过Dream Fields展示了其新的AI系统,该系统结合了NeRF生成3D视图的能力和OpenAI的CLIP评估图像内容的能力。苹果AI团队发布的高迪更进一步,可以生成沉浸式3D场景的神经架构,根据文字提示创建3D场景。比如输入“穿过走廊”或者“上楼梯”,就可以看到这个动作的3D场景视频。文字秒变3D?苹果发布最新AI一代模型高迪,根据文字提示创建3D场景_语言开发_核可乐_InfoQ精选文章
据了解,NeRFs是一种主要用于3D模型和3D场景的神经存储介质,可以从不同的相机视角进行渲染。此前,将生成的AI扩展到完全无约束的3D场景是一个尚未解决的问题。这背后的一个原因是它受到摄像机位置的限制:虽然对于单个物体,每个摄像机位置都可以映射到一个穹顶上,但在3D场景中,这些摄像机位置受到物体和墙壁等障碍物的限制。对于这个问题,高迪模型的解决方案是:摄像机姿态解码器预测摄像机可能的位置,并保证输出的是3D场景架构的有效位置。虽然目前高迪生成的3D场景视频质量不高,但也预示着未来AI的新可能。或许在AI的下一个阶段,我们可以看到更多的惊喜。
高迪背后的技术实现根据苹果的介绍,高迪的目标是在给定3D场景轨迹经验分布的情况下,学习生成模型。地址:https://arxiv.org/pdf/2207.13751.pdf.就具体技术实现而言,设X={xi{0,…,n}}代表定义的一组经验分布例子,其中每个例子xi代表一条轨迹。每个轨迹xi被定义为相应的RGB、深度图像和6DOF相机姿态的可变长度序列。人工智能团队将学习生成模型的任务分为两个阶段。首先,对于每个示例x X,获得潜在表示z=[zscene,zpose],用于在单独的展开向量中表示场景和姿态的辐射场。接下来,给定一组势Z={zi{0,n}},目的是学习分布p(Z)。
1.优化辐射场和相机姿态的潜在表示。为每个示例x X(即经验分布中的每个轨迹)找到潜在的表示z Z。为了获得这种潜在的表示,该团队采用了无编码器的观点,并将Z解释为通过优化问题找到的自由参数[2,35]。为了将势Z映射到轨迹X,我们设计了一个网络架构(即解码器),可以用来分析相机姿态和辐射场参数。这里的解码器架构由三个网络组成(如下图所示):
解码器模型架构负责将相位姿态从3D几何和场景外观中分离出来。解码器由三个子模块组成:解码器D以用于表示场景zscene的势码为输入,通过三平面势码w生成3D空间的分解表示,辐射场网络F以p R3为输入点,在w的条件下通过体绘制(方程1)预测密度和信号A,最后, 我们通过网络C对相机姿态进行解码,C网络以归一化的时间位置s [-1,1]为输入,在zpose(代表整个轨迹X中的相机姿态)的条件下预测相机姿态T S se (3)。
相机姿态解码器网络C(由c参数化)负责预测轨迹中归一化时间位置s [-1,1]处的相机姿态T S SE (3),其中zpose条件表示整个轨迹的相机姿态。为了确保C的输出是有效的相机姿态(例如,SE(3)的元素),输出3D向量,其用于表示方向的归一化四元数qs加上3D平移向量ts。场景网络d(由d参数化)负责预测辐射场网络F的条件变量.网络以表示场景zscene的势码为输入,可以预测轴对齐的[37,4] W R 3SSF的三平面表示。对应空间维度S x S和F通道的三个特征图[Wxy,Wxz,Wyz],每个轴分别对准一个平面:xy,xz,yz。辐射解码器网络F(由f参数化)的功能是通过使用等式1中的体绘制议程来重建图像级目标。其中f的输入为p R 3,三个平面表示W=[Wxy,Wxz,Wyz]。给定一个3D点p=[i,j,k]来预测辐亮度,将P正交投影到W中的每个平面,进行双线性采样。将三个双线性采样向量连接成WXYZ=[WXY (I,J),WXZ (J,K),WYZ (I,K)] R3f,用于调整辐射场函数F .这里,Apple AI团队将F实现为输出密度值和信号a的MLP .为了预测像素的值V,使用了体绘制议程(见等式1),其中3D点表示特定深度u处的光线方向R(相对于像素位置).等式1团队还建立了去噪重建目标,以联合优化.n},如等式2所示。请注意,虽然势Z是针对每个实例X独立优化的,但网络d,c,f的参数是所有实例x X平均共享的不同于以往的自动解码方法[2,35],每个势Z在训练时都会受到与所有势模型的经验标准差成正比的加性噪声的干扰,即z=z N (0,std(Z)),这将导致收缩表示[46]。在这种情况下,控制着分布z Z的熵与重构项之间的权衡:当=0时,Z的分布就是指示函数的集合;当 0时,位势空间是非平凡结构。通过使用较小的 0值来强制获得潜在空间,并且插值样本(或者包含与经验分布的小偏差的样本,即可能从采样的后续生成模型中获得的样本)将被解码器支持包括在内。
该等式使用两个不同的损失函数来优化参数d、f、c和潜在变量z Z。当需要给出实际相机姿态Ts时,第一损失函数Lscene负责测量在zscene中编码的辐射场和轨迹x im s中的图像之间的重建(其中s表示轨迹中帧的归一化时间位置)。对RGB使用l2损失函数,对4深度1使用l1损失函数。第二损失函数Lpose测量在zpose中编码的姿态T^ s和真实姿态之间的相机姿态重建的差异。L2损失用于平移,l1损失用于相机姿态的归一化四元数部分。虽然归一化的四元数在理论上不一定是唯一的(例如Q和-q),但是在训练期间没有发现经验问题。
2.预先了解一组给定的势z Z,它们是通过最小化等式2中的目标而生成的。目的是通过学习得到一代模型p(Z)并捕捉其分布(即在最小化方程2的目标后,将z Z解释为经验分布在势空间中的形式)。为了对p(Z)建模,该团队采用了去噪扩散概率模型(DDPM)[15],这是一种基于分数匹配的新模型[16]。该模型可以通过大量但有限的时间步来学习马尔可夫链的反向扩散。DDPMs表明,这个逆向过程相当于学习一系列具有绑定权重的自动去噪解码器。DDPM的监督去噪目标使得学习这个(z)变得简单和可扩展。所以可以学习一个强大的生成模型,可以无条件/有条件的生成3D场景。为了训练先前的pp (Z ),采用等式3中定义的目标函数。在等式3中,t表示时间步长,~ n (0,I)是噪声, t是具有固定时间表的噪声幅度参数,p表示去噪模型。
等式3在推理过程中,团队将按照DDPM的推理过程对z ~ p p (z)进行采样。首先对zT ~ n (0,I)进行采样,然后迭代使用p对zT梯度进行去噪,从而反向扩散马尔可夫链得到z0。接下来,z0被提供作为解码器架构的输入,从而重建辐射场和照相机路径。如果目标是学习潜变量p(Z|Y)的条件分布,我们应该给定配对数据{z Z,y Y},在去噪模型中加入一个条件变量Y,从而得到p (z,t,Y)。

其他教程

从制作方式上来简述动画片的分类(从制作角度看,动画分为三类,你喜欢哪种形式)

2022-9-5 21:11:38

其他教程

儿童右脑开发音乐推荐(儿童右脑开发音乐)

2022-9-5 21:13:40

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索