阿里达摩院:1秒替换直播背景,如何实现像素级视频分割?

计算机视觉领域的 AI 顶会 CVPR 2020 刚刚落下帷幕,与往年更专注图片识别不同,学术界和工

计算机视觉领域的AI峰会CVPR 2020刚刚落下帷幕。与前几年更侧重于图像识别不同,学术界和工业界的研究方向逐渐转向视频分割、3D视觉等难度更大的领域。这一次,阿里巴巴赢得了四个世界冠军,包括CVPR 2020的DAVIS视频目标分割比赛。本文将详细解释这项冠军技术背后的原理。

与图像识别不同,AI分析对于理解视频的技术门槛更高。长期以来,业界对视频AI技术的研究鲜有重大突破。以CVPR大会最难的比赛之一Davis(Denselly Annotated Video Segmentation)为例。本次比赛要求参赛队伍准确处理复杂视频中物体的快速移动、外观变化、遮挡等信息。在过去的几年里,世界顶尖技术从未在这项比赛中获得80分,而达摩院的模型最终在测试-挑战中获得了84.1分。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?DAVIS的数据集经过了精心的挑选和标注,视频分割中的难点都有所体现,如快速运动、遮挡、消失和再现、变形等。DAVIS的数据分为train(60个视频序列)、val(30个视频序列)、test-dev(30个视频序列)和test-challenge(30个视频序列)。可以下载Train和val,并提供每一帧的标注信息。对于半监督任务,test-dev和test-challenge,可以下载每一帧的RGB图像,并且还提供第一帧的注释信息。该算法需要根据第一帧的注释掩码来分割后续帧。分区本身是实例级的。

阿里达摩院:像素级视频分割

阿里达摩院提供了一种全新的空间约束方法,打破了传统STM方法缺乏计时的瓶颈,允许系统基于上一帧视频预测目标物体的下一帧位置;此外,阿里还引入了语义切分的微调模块,大大提高了切分的精细度。最后,精确识别出动态目标的轮廓边界,并将其从背景中分离出来,实现像素级目标分割。

基本框架

达摩院的算法是在去年CVPR STM的基础上进一步改进的。STM的主要思想是,对于历史帧,每个帧以键值的形式被编码为一个特征。预测当前帧时,将当前帧的关键点与历史帧的关键点进行匹配。匹配方法是非本地的。这种非局部匹配可以看作是将当前关键点,即每个坐标的C维特征,与历史上每一帧在该坐标的C维特征进行匹配。将匹配结果作为软索引,读取历史值信息。读取的特征与当前帧的值拼接,用于随后的预测。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现? 阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?

三大技术创新

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?

1. 空间约束

STM的特征匹配方法提供了一种空间上的长依赖,类似于《变形金刚》中,序列关联是通过自我注意来完成的。这种机制可以处理运动、外观变化、遮挡等。但也有一个问题,就是时机的缺失和短期依赖。当某一帧中突然出现与目标相似的物体时,很容易产生错误回忆。在视频场景中,在许多情况下,当前帧的相邻帧对当前帧的影响大于较早的帧。基于这一点,达摩院提出依靠上一帧的结果计算关注度来约束目标预测在当前帧的位置,相当于对短期依赖进行建模。

具体方法如下图所示:

将当前帧的特征和前一帧的预测掩码在通道维度上串联,得到HxWx(c 1)的特征;该特征被压缩成HxW通过卷积;利用sigmoid函数,将HxW的特性和压缩范围作为空间注意力;作为空间约束,通过原始特征增加注意力。阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?下图是空间注意的可视化结果。可以看到大致对应前景的位置。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?

2. 增强 decoder

达摩院介绍了语义切分中的感受野增强技术ASPP和细化切分的细化模块。ASPP作用于记忆读取的特征,用于融合不同感受野的信息,提高对不同尺度物体的加工能力。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?

3. 训练策略

达摩院提出了一个简单但有效的训练策略,减少了训练阶段和测试阶段的差异,提高了最终效果。

在原始STM训练期间,将从视频中随机抽取3帧。三帧之间的跳帧间隔随着训练逐渐增大,以增强模型的鲁棒性。然而,达摩院发现这将导致训练和测试之间的不一致,因为测试是逐帧处理的。所以在训练的最后阶段,达摩院会再次降低跳帧间隔,以保证与测试的一致性。

其他

骨干网:达摩院用的是resnet,一种比较新的骨干网,可以无痛替代原来STM的resnet。结果有显著的改善。

测试策略:达摩院采用多尺度测试和模型集成。不同比例和不同模型的结果在最终预测图上简单地以相等的权重进行平均。

内存优化:达摩院在内存优化方面做了一些工作,使得STM可以在多目标模式下支持大规模的训练、测试和更大的内存容量。

数据:训练数据,达摩院使用了DAVIS,Youtube-VOS,以及STM原文中使用的静止图像数据库。没有其他数据。

结果

达摩院的模型最终在测试-挑战中取得了84.1。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?测试开发中的消融实验。在达摩院重现的STM取得了和原文一样的效果。在各种绝招的加持下,已经提升了11点。

阿里达摩院:1 秒替换直播背景,像素级视频分割如何实现?随着互联网技术和5G技术的发展,短视频、视频会议、直播等场景越来越多,视频分割技术也将成为不可或缺的一部分。比如在视频会议中,视频分割可以准确区分前方背景和后方背景,从而模糊或替换背景;直播中,用户只需站在绿屏前,算法就会实时替换背景,实现一秒钟新建一个直播间;在视频剪辑领域,可以辅助后期制作。

参考:

吴镇西,李JY,徐宁,金世柱。利用时空记忆网络的视频对象分割。2019年IEEE计算机视觉国际会议论文集。非局部神经网络。2018年关注我并转发此篇文章,私信我“领取资料”,即可免费获得InfoQ价值4999元迷你书!IEEE计算机视觉和模式识别会议进展

剪辑教程

终于来了!人像肖像5后期全新升级,DR5高级磨皮“完成”

2022-6-2 19:54:00

剪辑教程

怎么把镜像的视频转过来(什么软件可以把视频转镜面)

2022-6-2 19:56:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索