栗子起源于凹非寺
量子报道|公众号QbitAI
将一个视频的脸部动作移植到另一个视频的主角的脸部。 大家可能已经习惯了这样的操作。
即使目标主角不是人,恐怕也不能说很棒。 眼睛、鼻子、嘴巴,至少零件齐全。 那么,什么样的过渡会走出这个框框,这个星球上所有的东西都有机会收到视频改造的恩泽呢?
按你希望的速度开花?中老年人的印模利器
卡内基梅隆大学的团队开发了自动变身技巧。 无论是花草,还是万千气象,都可以自由切换。
云也越来越近了
在超越前辈Cycle-GAN (来自朱俊彦团队)的意义上,团队可能给自己的GAN起了Recycle-GAN这个非常环保的名字。 这个选手入选了ECCV 2023。
Recycle之路,时间知道Recycle-GAN是在没有监视的情况下学习的AI。
使用不成对的二维图像数据训练“视频重定向”( Video Retargeting )并不容易。
第一,如果没有配对数据,在视频变形的优化中,给定的限制就会不充分,容易产生不良局部极小值( Bad Local Minima ),从而影响生成效果。
二是光靠二维图像的空间信息很难学习视频的风格。
只要你开花,我就开花
针对这两个问题,CMU团队提出的方法通过利用时间信息( Temporal Information )施加更多的限制,减少了不良局部极小值的现象。 另外,时间、空间信息组合食用也可以让AI更好地学习视频的风格特征。
时间信息(进度条无法支撑((错误) ) ) ) ) ) ) ) )。
重要的是,因为可以得到视频的“时间”的信息,所以不需要找。 接下来,我们来看看Recycle-GAN是如何在两个视频的图像之间建立映射的。
B :让我们比较一下三位选手
Pix2Pix有配对数据; CycleGAN具有循环完整性( Cycle Consistency ); RecycleGAN正在使用视频流的“时间”信息。 翻过来比CycleGAN的历史还辛苦。 看来,Recycle-GAN这个名字感觉很有道理。 只有使用对抗损失( Adversarial Loss )、朱俊彦团队循环损失( Cycle Loss )、迭代损失( Recurrent Loss )、以及CMU团队自行制造的“再”循环损失),才是强大的损失函数。
效果怎么样? 似乎只有与CycleGAN相比,才能知道时间信息是否好用。
第一局,先看看变脸的效果:
RecycleGAN在奥巴马生成的川川河,不仅是嘴皮子,脸部的角度也在变化。 中央的CycleGAN,只有嘴巴的动作很明显。 第二局,你看过蒲公英开花的样子吗:
当丽姬蒲公英学着菊花的动作,变成茂盛的团子时,紫杉慢慢地开放着。 请注意,团队事先匹配两种花,从第一朵花开始直到完全凋谢,时间。 此外,云卷云舒(也出现在片头) :
本来就在悠闲地移动。 和喷气式的云,学习后,获得了不耐烦的节奏。
这样的话,改变天气就不难了。 小组说拍电影的成本可以通过这样的方法降低。
代码也快到了CMU的科学家们,大家都说很快就能看到代码了。
但是,在那之前,我们还有很多资源。
团队在项目的主页上提供了丰富的生成效果。
33559 www.cs.CMU.edu/~ aayushb/recycle-gan /
请在这里观察论文:
33559 www.cs.CMU.edu/~ aayushb/recycle-gan/recycle _ gan.pdf
结束了
认真招募
量子在招聘编辑/记者,工作地点在北京中关村。 期待有才气和热情的同学参加! 详情请在量子位公众号( QbitAI )的对话界面回复“招聘”两个字。
量子比特QbitAI 头条号合同作者
&; #039; &; #039; 跟踪AI技术和产品的新动态