机器之心专栏
作者:任海兵,阿里巴巴资深算法专家
在本文中,阿里巴巴资深算法专家为我们介绍了视频对象分割的三个研究方向,然后结合阿里巴巴互娱魔酷实验室的探索,分享了他们在视频领域的最新应用。
视频对象分割,顾名思义,就是从所有的视频图像中完整地分割出感兴趣的对象区域。
视频对象分割的结果是二次内容创作的重要素材。比如目前流行的“裸眼3D视频”,基于视频中主要物体与观众的距离,利用皮肤遮挡的变化来产生3D效果。其核心点是将前景物体从视频中分离出来,这将占用创作者99%以上的时间。
所以对于优酷这样的视频网站来说,视频对象分割是非常有价值的算法,可以赋能内容生产者,提高内容生产效率。尤其是交互式视频对象分割算法,可以利用少量的用户交互,逐步提高视频对象分割的准确率,增强用户的视觉体验。这是任何无监督视频对象分割算法都无法实现的。
目前,CV学术界对视频对象分割的研究主要分为三个方向:
半监督视频对象分割(半监督视频对象分割)交互式视频对象分割(无监督视频对象分割)
这三个研究方向对应的是戴维斯挑战赛2019中关于视频对象分割的三个赛道[1]。其中学术界更倾向于研究半监督视频对象分割,因为它是视频对象分割最基本的算法,也是一个相对纯粹的研究点。接下来我先介绍一下视频对象分割的三个研究方向,然后以阿里巴巴文娱魔酷实验室的探索来分享一下视频领域的最新应用。
1.半监督视频对象分割
半监督视频对象分割,也称为单镜头视频对象分割(OSVOS)。在半监督视频对象分割中,给定用户感兴趣的对象在第一帧视频中的分割区域,算法获得该对象在后续帧中的分割区域。可以有一个或多个对象。在视频中,存在物体和背景运动、光照、物体旋转、遮挡等的变化。因此,半监督视频对象分割算法的研究重点是如何自适应地获取变化的对象外观信息。下图显示了一个示例:
图1。半监督视频对象分割的例子。
在图1中,第一行是RGB图像序列,第二行是感兴趣的目标区域。其中(a)是视频的第一帧图像,骆驼区域是给定对象的地面实况。(b)(c)和(d)是第20、40和60个后续帧。后续的图像只有RGB图片,所以需要一个算法来估计物体的面积。这个例子的难点在于:(1)前景和背景颜色非常相似;(2)随着目标骆驼的移动,背景中出现一只新的骆驼,需要划分为两个不同的骆驼区域。
目前,半监督视频对象分割算法可以分为两类:在线学习和在线学习。
基于在线学习的算法采用一次性学习的策略,根据第一帧物体的真实情况对分割模型进行微调。经典的在线学习算法有Lucid Data Learning [2]、OSVOS[3]、PreMVOS[4]等。在线学习算法对每个对象分别训练模型,可以达到很高的分割精度。但是在线学习本身就是深度学习模型的微调,需要大量的计算时间。2019年之前,在线学习算法是主流。这年头,没有在线学习的算法很多。他们的模型都是预先训练好的,不需要对样本进行微调,因此具有更好的时效性,比如CVPR2019的FEELVOS[5],时空记忆网络[6]等等。
半视频对象分割的主要评价标准是平均Jaccard和F-measure。平均Jaccard值是所有帧上所有对象的分割精度的平均值。F-measurement是分割区域边缘的精确度。半监督视频对象分割不能直接应用于实际应用,因为它需要第一帧对象区域的真实性。但它是交互式和无监督视频对象分割算法的核心组成部分。
第二,交互式视频对象分割
交互式视频对象分割是去年开始的一种更实用的视频对象分割方法。在交互式视频对象分割中,输入的不是第一帧中对象的地面实况,而是任意一帧视频中对象的用户交互信息。该信息可以是对象的边界框、对象区域的涂鸦、外边缘的极值点等。
基本流程如下图所示:
图2。交互式视频对象分割过程。
交互式视频对象分割通常包括以下五个步骤:
用户输入交互信息并标记感兴趣的对象,如包围盒、涂鸦信息、边缘点等。根据用户输入的交互信息,利用交互式图像对象分割算法分割出帧图像中对象的对象区域;根据前一帧对象区域,使用半监督视频对象分割算法将图像逐帧传输到其他视频帧,通过对象分割得到所有帧图像上的对象区域。然后,用户检查分割结果,并在分割不良的帧上给出新的交互信息;该算法根据新的交互信息修改帧图像的分割结果。重复步骤3和4,直到视频对象分割结果令用户满意。交互式视频对象分割不是单一的算法,它是多种算法有机融合的解决方案,包括交互式图像对象分割、半监督视频对象分割、交互式视频对象区域转移算法等。主要的评价方法有JaccardF-measurement@60s(简称JF@60s)和Davis challenge在视频对象分割中提出的曲线下面积(简称AUC)。Davis建议限制8次用户交互,并建立一条准确度随时间变化的曲线。曲线下面积为AUC,t=60s时的曲线插值为JF@60s。下图是JF随时间变化的曲线图。
图3。交互式分割结果的JF曲线示例。
从评价指标可以看出,交互式视频对象分割强调分割算法的时效性,用户不能长时间等待。因此,基于在线学习方法的半监督视频对象分割算法一般不用于交互式视频对象分割。目前没有用于交互式视频对象分割的开放源代码。然而,交互式视频对象分割算法对行业具有重要意义,因为:
监督半视频对象分割需要对象的第一帧的地面实况,这在实践中很难获得。而交互式视频对象分割只需要用户的简单交互,非常容易实现。交互式视频对象分割可以通过多次交互达到非常高的分割精度。高精度的细分结果可以提供更好的用户体验,这才是用户需要的。第三,无监督视频对象分割
无监督视频对象分割是一种全自动的视频对象,除了RGB视频没有其他输入。其目的是分割视频中的显著对象区域。在上述三个方向中,无监督视频对象分割是最新的研究方向。
与戴维斯和Youtube VOS的竞争今年首次出现了无人监管的赛道。从算法层面来说,无监督视频对象分割需要增加显著对象检测模块,而其他核心算法保持不变。
在半监督和交互式视频对象分割中,对象是预先指定的,没有任何模糊性。然而,在无监督视频对象分割中,对象显著性是一个主观概念,不同人之间存在一定的歧义。因此,在戴维斯VOS中,参赛者需要提供总共N个物体的视频分割结果(在戴维斯无监督VOS 2019中,N=20),并计算与数据集ground-truth标记的L个显著物体序列的对应关系。对应对象和缺失对象参与计算JF的平均值。n个对象中多余的对象不会被惩罚。
四、阿里文娱魔酷实验室的研究现状
目前很多半监督视频对象分割算法虽然有很好的学术创新,但实际效果并不好。我们统计了今年CVPR的论文,在Davis 2017 val数据集上,没有一篇是正论文JF0.76 Feevos [5],siamMask[7]等算法理论上不错,但实际中问题很多。交互式视频对象分割没有开源代码。
因此,阿里数娱魔酷实验室从2019年3月底开始从事半监督交互式视频对象分割算法的研究。
2019年5月,我们完成了半监督视频对象分割算法和交互式视频对象分割解决方案的基础版本,并参加了2019年戴维斯视频对象分割挑战赛(Davis Challenge on Video Object Segmentation),在交互式视频对象分割赛道上获得第四名。
我们的VOS与鲁棒跟踪策略[8]可以大大提高基本算法的鲁棒性。在Davis 2017验证集上,我们的交互式视频对象分割算法JF@60s的准确率从3月底的0.353提高到5月初的0.761。现在,我们的半监督视频对象分割算法已经达到JF=0.763。可以说我们这次集锦的成绩已经接近行业一流水平。
动词(verb的缩写)阿里巴巴娱乐魔酷实验室后续计划
目前继续探索算法在复杂场景中的应用,如小物体、前景与背景高度相似、物体快速移动或明显变化、物体遮挡严重等。后续计划在在线学习、时空网络、区域建议、验证等策略上努力,提高复杂场景下视频对象分割算法的分割精度。
此外,图像对象分割算法和多目标对象跟踪算法也是视频对象分割算法的重要基础,我们将在这些方面不断提高精度。
参考
[1]关于VOS:无监督多对象分割的2019年戴维斯挑战赛。S. Caelles、J. Pont-Tuset、F. Perazzi、A. Montes、K.-K. Maninis和L. Van Gool .arXiv:1905.00737,2019年
[2] A. Khoreva、R. Benenson、E. Ilg、T. Brox和B. Schiele。目标跟踪的清晰数据梦。在arXiv预印本arXiv: 1703.09554中,2017年。2
[3] S. Caelles、K.-K. Maninis、J. Pont-Tuset、L. Leal-Taix e、D. Cremers和L. Van Gool。单镜头视频对象分割。2017年,CVPR
[4] J. Luiten、P. Voigtlaender和B. Leibe。PReMVOS:提案-视频对象分割的生成、细化和合并。arXiv预印本arXiv:1807.09190,2018。
[5] Paul Voigtlaender,Yuning Chai,Florian Schroff,Hartwig Adam,Bastian Leibe,陈良杰.用于视频对象分割的快速端到端嵌入学习。CVPR 2019
[6].吴成武,李俊英,许凝,金成珠。基于交互传播网络的快速用户引导视频对象分割。CVPR2019
[7].王、张、张、李、胡伟明。快速在线对象跟踪和分割:一个统一的方法。CVPR2019
[8]任,杨,刘。具有高效目标跟踪的鲁棒多目标掩模传播。2019年视频对象分割戴维斯挑战赛-2019年CVPR研讨会