萧源自凹非庙量子位|微信官方账号QbitAI
AI绘画在这里的热度还没下去,OpenAI甚至还出了“3D版”的AI绘画。
没错,用文字生成3D点云模型比——还快。
那种!
只需要一个NVIDIA显卡就可以在两分钟内生成一个小型3D对象,比谷歌的Vincent 3D模型DreamFusion快了近600倍。
(但它们不会生成相同的3D模型)。
该项目开源后,在网上炸开了锅,英伟达AI科学家甚至大胆预测:
2023年将是3D模型爆发年,可以期待一波3D版的稳定扩散和中途。
现在抱脸上已经放出了Point E型号的试玩,想玩的朋友可以试试~
如何快速生成三维点云模型?顾名思义,E点不是直接生成3D模型的AI。
与Google DreamFusion直接生成可用于渲染的3D网格图相比,它生成的是3D点云。
模型(点云)
至于E点的E。
就是效率。
的意思。
据作者介绍,之所以选择从3D点云模型突破,是因为目前AI生成3D模型的一大缺陷就是速度慢,GPU渲染生成结果需要几个小时。相比之下,2D图像生成只需要几秒钟。
因此,加快三维模型生成的效率也非常重要。在此基础上,E点应运而生。
在文本生成的3D点云上,E点不是“一步到位”,而是将过程分为三步。
首先,如红框所示,模型将基于文本生成一个“预览视图”。
这一步是基于去年OpenAI发布的30亿模型GLIDE。
微调一下,它生成的视图还没有“3D特征”,相当于只是给出一个参考例子。
然后,如黄色方框所示
如图所示,E点将采用扩散模型。
,并根据“预览视图”生成一个粗略的3D点云模型(这里的粗略是指分辨率低,只有1024个点)。
具体结构如下:
最后,使用较小的扩散模型并采用上采样。
(向上采样)
将得到的3D点云模型进一步细化,得到最终的细化3D点云模型(共4096个点)。
具体的训练过程使用了包含数百万个3D模型的数据集,其中每个模型都被处理成三个部分:渲染视图、文本描述和3D点云。
这种方法生成的3D点云模型在处理速度上确实快了很多。
比DreamFusion快几百倍。从生成时间,DreamFields和DreamFusion都需要在小时内生成。
数数。
DreamFields是AI文本生成的3D模型,效果很好,但是单个显卡生成一个模型差不多要200个小时。
DreamFusion是DreamFields的一个进化版本,尽管它需要12个小时。
相比之下,大小不一的几款E点基本都是以分钟为单位,从1分钟到1.5分钟不等。
可以完成文本生成3D点云模型。
不过E点在生成效果上确实不如Google的DreamFusion,后者可以直接渲染生成3D模型:
相比之下,E点作为文本生成3D点云AI,无法像DreamFusion一样使用mesh。
直接生成3D模型。
在渲染之前,这些点云需要进行预处理,并经历网格化过程,这往往需要额外的费用时间:
作者还指出了e点的一些不足之处。
一方面,有时稀疏的点云经过预处理后可能会被忽略(比如下图中的花茎)。
:
另一方面,在从预览图像生成点云的过程中,有时会出现bug。例如,AI查看预览,生成完全不匹配的3D点云效果:
超高配版柯基和对称雪糕筒
即便如此,许多网友认为AI生成的3D模型的未来值得期待:
如果速度再快一点,也许一个6岁的孩子就能在iPhone上构建自己的宇宙。
(手动狗头)
审判地址:https://huggingface.co/spaces/openai/point-e
地址:https://arxiv.org/abs/2212.08751
—结束—
量子qbitai头条号签约
关注我们,先时间了解前沿科技动态。