的最新论文:甘监督学习添加表情到抖猫狗身上,丝滑贴身。

丰富的色彩来自奥菲斯| QbitAI的量子位报告,微信官方账号
甘已经被开发成一种“不正当”的用途。
给猫和狗添加表情:
麝香加胡子:
无论视频中头部如何左右晃动,这些表情总能贴合脸部,每一帧都很丝滑。
这是朱俊彦等人的最新研究成果:
一种基于GAN监督学习的密集视觉对准方法。
该方法的性能明显优于目前的自监测算法,在多个数据集上的性能与SOTA算法相当,有的甚至超过两倍。
利用GAN监督学习实现密集视觉对准视觉对准是光流、3D匹配、医学成像、跟踪和增强现实等计算机视觉应用中的关键因素。
说白了,比如人脸识别,不管一张脸是倒立还是歪着,从任何角度都能准确识别哪个是眼睛哪个是鼻子。
然而,首创的无监督视觉对齐方法Congealing在简单的二值图像(如MNIST数字)上表现出色,但在处理大多数具有显著外观和姿态变化的数据集时表现不佳。
为了解决这个问题,该团队提出了这种新的视觉对齐方法,称为GANgealing。
它是一个GAN监督算法,也是受了凝结的启发。
凝固模型的框架如下:
首先,用未对齐的数据训练生成器G。
然后,通过在生成器G的潜在空间中学习模式C,为随后的对齐创建合成数据集。
然后,数据集用于训练空间变换网络T(STN)。最后,通过使用预测图像和目标图像中的感知损失,将未对准的图像映射到对应的对准图像。
该算法的关键是利用GAN的潜在空间为STN自动生成成对的训练数据。
而且在这个GAN监督学习框架中,STN和目标图像实现了联合学习模式,STN专门使用GAN图像进行训练,并在测试时扩展到真实图像。
实际效果如何?实验表明,GANgealing可以在八个数据集(自行车、狗、猫、汽车、马、电视等)上准确地找出图片之间的密集对应关系。).
其中,每个数据集的第一行代表数据集的错位图像和平均图像(每行最右边的图像),第二行显示转换后的对齐效果,第三行显示图像之间的密集对应。
在图像编辑的应用中,GANgealing只能在平均图像(下图最左边的图像)上演示,在数据集中的其他图像上也能达到同样的效果,无论这些图像的角度和姿态变化有多大。
比如第一幕给小猫加上蝙蝠侠眼镜,最后一幕在车身上贴上黑色图案。
在视频剪辑上,GANgealing对每一帧的效果都相当丝滑,尤其是与监督光流算法(如RAFT)相比,差距非常明显:
所以作者也表示GANgealing可以用在混合现实应用中。
在定量实验中,GANgealing在非常精确的阈值(2像素误差容限)条件下,优于现有的监督方法,甚至在一些数据集上表现出极大的优势。
然后,在具有挑战性的SPair-71K数据集上评估了联动和几种自监测SOTA方法。
该比率是PCK-转移值(PCK,关键点的百分比),它测量从源图像转换到目标图像的关键点的百分比。
发现GANgealing在三类中的表现明显优于目前的方法,尤其是在自行车和猫图谱中,比自我监测方法CNNgeo和A2Net高出一倍。
当然,当数据集图片与实例相差太大时,如侧脸如下的猫,张开翅膀的鸟,GANgealing表现不佳。
GANgealing简介作者来自加州大学伯克利分校、CMU、Adobe和麻省理工学院。
加州大学伯克利分校三年级博士生比尔皮布尔斯(Bill Peebles)主攻无监督学习,主要研究图像和视频的深度生成模型。
年轻的公牛朱俊彦是其中之一,他目前是CMU大学的助理教授。
通讯员是Adobe Research的高级首席科学家Eli Shechtman。发表论文100余篇,先后获得ECCV 2002年度最佳论文奖、WACV 2018年度最佳论文奖、FG 2020年度亚军、ICCV 2017年度时间测试奖等荣誉。
地址:https://arxiv.org/abs/2112.05143
代码:https://github.com/wpeebles/gangealing
项目主页:
https://www.wpeebles.com/gangealing

其他教程

音乐噪音消除(消除不了的音乐声怎么回事)

2022-9-9 7:29:57

其他教程

软件开发工具大全(最简单的软件开发工具)

2022-9-9 7:32:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索