机心报道
编辑:泽南,小舟
脸书的视频生成了新的模型实现了SOTA,但不知道人类提供的提示太简单了,生成内容是否有点惊悚。
你输入文字后,AI就可以生成视频。 很久以来,人们想象中的事情现在已经实现了。
昨天,元(脸书)研究人员宣布了在AI艺术领域的新成果Make-A-Video。 这是一项创造性的新技术,结果令人印象深刻,种类繁多。 虽然画面目前看起来很惊悚,但在AI圈,人们已经开始批量生产梗图,图灵奖获得者延乐村也在不断地转发其制作的内容。
迄今为止,我们已经看到大多数从文本到视频模型都是使用DALL-E等文本生成图像,并从人类提示中输出静态图像。 但是,从静止图像到运动图像的概念跳跃对于人脑来说很小,但很难通过机器学习模型来实现。
正如——名研究人员在论文中指出的,Make-A-Video实际上并未在后端对这个过程做太多改变,“只看描述图像的文本的模型在生成短视频方面意外地有效。 ” ”
例如,如果输入“A teddy bear painting a portrait”,即“画自画像的泰迪熊”,则Make-A-Video生成的视频将成为以下视频。
论文《Make-A-Video: Text-to-video Generation without text-video data》 :
从格式上来看是ICLR大会的投稿。
指向论文的链接:
3359 make a video.studio/make-a-video.pdf
该AI模型使用现有和有效的扩散技术来生成图像,本质上是从纯粹的视觉静态“去噪”向目标提示的逆向作业。 需要注意的是,该模型还对一堆未标记的视频内容进行了无监督培训。 这意味着在没有人类精心指导的情况下使用数据进行训练。
Make-A-Video不需要从头开始学习视觉和多模态显示,从一开始就知道如何制作逼真的图像,也不需要成对的文本视频数据。 同时生成的视频样式多样,继承了当前图像生成模型的可扩展性。 元研究人员表示,在空间和时间分辨率、文本还原保真度和质量方面,Make-A-Video实现了从文本到视频生成的最高水平。
不管空间分辨率、时间分辨率、与文本描述的适应度如何,Make-A-Video在文本到视频的生成中达到了SOTA水平。
与以前基于文本生成视频的系统相比,Make-A-Video使用了不同的方法来提供与18个月前的原始DALL-E或其他上一代系统一致的图像保真度。
T2V生成的图像示例。 元提出的模型可以生成针对各种视觉概念具有一致动作的高质量视频。
值得注意的是,AI模型生成的图像往往过于精细而失去真实感,保留稍有瑕疵的图像和视频更现实。
生成视频的高级体系结构。 给定事先由p翻译成图像的输入文本x和需要的帧速率f ps,解码器Dt产生16个64 64分辨率的帧,通过F将其内插为较高的帧速率,根据(提高 )的分辨率计算SRt l
作为脑补工具,Make-A-Video还可以利用静止图像和其他视频将其转换为变体或进行扩展。 就像图像生成器也可以提示图像本身一样。 这样生成的结果有点魔性了。
到文本、图像、视频,AI工具的发展速度再次达到极限,该技术公开后,人们不知道用它来制作什么样的“艺术品”。 据Meta称,人们已经开始注册,近期可以获得开放的模型。
参考内容:
3359 ai.Facebook.com/blog/generative-ai-text-to-video /
3359 TechCrunch.com/2023/09/29/meta-make-a-video-ai-achieves-a-new-creepy-state-of-the-art/g counter=1g uce _ referrer=a hr0 CHM6ly 93 D3 cuz 29 vz2xllmnvbs8guce _ referrer _ SIG=aqa ab 4g IQ w9 qju8rwfhrqvhojq _ bwreeeer o awvzteplcabevjmecqd 3h8 GX H9 mvyeqg0CTP 4t jn _ tljgmaka5gmntxiz9_