假AI又进化了!只要拍一张照片,说话唱歌的视频就自动生成。

制作了很多“小视频”,恶搞了很多明星的有名的换脸神器Deepfakes,至此受到了降维的打击。

这个新的AI没有篡改视频,而是将静止图像直接转换为视频。

就这样,施瓦辛格:

开始说话了:

饶舌歌手Tupac Shakur :

你也可以张开嘴巴:

如果有静态的脸部照片,无论是谁,在这个新AI的驱动下,通过组合任意的声音,都可以开口说话。

当然,上面的gif动画没有声音。 点击下面的视频听听效果。 有川普、施瓦辛格、爱因斯坦。 共计2M,流量党请放心食用

当然,除了说话以外唱歌也没有问题。 例如,让住在一百多年前的“俄罗斯妖僧”拉斯普京唱碧昂斯的Halo :

声音和性别不太匹配,但是影像和歌曲组合起来总觉得有鬼畜感。

不要以为这个AI只能对准照片。 另外,也可以让这个说话的人有喜怒哀乐的各种感情。

快乐:

悲伤:

油炸的东西:

连身材都符合不同的情绪状态。 请打开视频听听。 符合说话的情绪吗?

这眉毛、这眼睛、这脸上的肌肉,要拯救多少“面瘫”演员啊!

这项研究来自帝国理工大学和三星。 研究人员还准备了图灵测试,其中包括24个不知真伪的视频。 我们简单地测了一下,只猜对了一半左右。

也就是说,这些AI生成的“真伪美猴王”足以欺骗人类。

与以往斯坦福大学输入任意文本改变视频人物嘴型的研究,以及三星语言表情的研究相比,实现的难度可以说相当大。

很多网友听到的颜色变了:

现在拉斯普京在唱Halo,接下来不是要把川普整个人都送到墨西哥去参加选战吗? 我觉得很害怕。

就连科技媒体The Verge也做出了如下评价。

这样的研究总是让人们担心,害怕被用于谣言和政治宣传,真的困扰着美国的立法者们。 当然,可以说这种在政治领域的威胁并不严重,但deepfakes确实被用来制作伤害了一部分人,特别是女性,未经同意就丢脸的色情视频。

也有人认为,技术普及后,被做坏事的人掩盖是有理由的:

随着这个技术成熟,川普真正做坏事的小视频一出来,他就可以轻轻松松地说这是假视频。

呵呵,好厉害。 今后坏人被抓住把柄的时候,可以说“没有啊,是假的视频”。

多分类器结构

如何用一张照片制作一致的视频? 研究人员认为,这需要按时间顺序生成对抗网络( Temporal GAN )来支持。

从逻辑上可以看出,要使生成的假视频真实,画面上至少必须满足两个要素。

一是人脸图像质量必须高,二是需要根据对话内容,调整嘴唇、眉毛等人脸五感的位置。 无需使用复杂的人脸捕捉技术,现在只需通过机器学习的方法,就可以自动合成人脸。

这中间的秘诀在于按时间顺序生成对抗网络,即Temporal GAN,此前在2023年提出了该研究。

这是一种端到端的语音驱动人脸动画合成模型,可从静止图像和音频中生成人脸视频。

Temporal GAN有两个识别器。 一个是帧分类器,它保证生成的图像清晰详细。 另一个是序列分类器,它会响应听到的声音生成相应的脸部运动,但效果不是很好。

Temporal GAN模型示意图

论文end-to-end speech-drivenfacialanimationwithtemporalgans地址:

https://arxiv.org/abs/1805.09313

在这个工作中,研究者利用这个时机产生对抗网络,使用两个时间分类器,将产生的视频与观众相对应,产生真实的脸部动作。

另外,鼓励模型进一步自发地创造眨眼等新表情。

所以,最新版的基于语音的脸部合成模型来了。 模型由时间生成器和三个分类器组成,结构如下:

这是一个有序的分工结构,生成器接收单个图像和音频信号作为输入,并将其分成0.2秒的重叠帧。 每个音频帧必须以视频帧为中心。

生成器由内容编码器、认证编码器、帧解码器、声音解码器组成,将不同的模块组合成可嵌入的模块,通过解码网络转换为帧。

该系统使用多个分类器捕获自然视频的各个方面,并担任各部分的职责。

帧识别器( Frame Discriminator )是一个六层卷积神经网络,决定一帧是真是假,同时实现说话人脸部的高质量视频重建。

序列识别器可提供一致的视频,以便每一帧指示自然运动。

同步鉴别器增强了对观看同步的要求,并确定如何同步屏幕和音频。 使用两种编码器获取音频和视频的嵌入信息,根据欧式距离进行判断。

同步识别器的结构如下。

这样,不需要昂贵的脸部拍摄技术,仅仅通过这样的网络就可以将一张照片和一个音频组合成流畅一致的视频。

30多个CVPR作者

Konstantinos Vougioukas、Stavros Petridis和Maja Pantic三位作者参加了这项研究。 都来自伦敦帝国学院的iBUG小组,以智能行为理解为主导。 其中的两部和三部也是英国三星AI中心的员工。

第一部KonstantinOSVougioukas于2011年获得彼得雷大学电气与计算机工程专业本科号学位后,前往爱丁堡大学获得人工智能方向的硕士学位。

目前,Konstantinos Vougioukas在伦敦帝国学院Maja Pantic教授(正文三作)的指导下主修博士课程,主要研究方向是人类行为合成和面部行为合成。

Maja Pantic教授是iBUG集团负责人、剑桥三星AI中心研究主任,在表情分析、人体姿态分析、情绪和社会信号非常分析等方面发表论文250多篇,被引用次数超过25000次。

从2005年开始,Maja Pantic带着学生发表了30多篇cvpr (包括workshop )论文。

Maja Pantic教授主页:

3359 ibug.doc.IC.AC.uk/people/MP antic

接送门

论文realistic speech-drivenfacialanimationwithgans地址:

https://arxiv.org/abs/1906.06337

项目主页:

3359 sites.Google.com/view/facial-animation

GitHub :

3359 github.com/dino man/speech-driven-animation

其他教程

3dmax用插件怎么渲染全景通道图,3dmax有没有插件可以渲染快一点

2022-12-30 13:33:52

其他教程

盘点周杰伦演唱会上的神仙粉丝,盘点众明星如何评价周杰伦

2022-12-30 13:35:56

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索