图像分割技术是计算机视觉领域的一个重要研究方向,也是该领域其他应用的重要前期步骤。近年来,随着深度学习技术的逐步深入,图像分割技术发展突飞猛进,尤其是场景物体分割、人体背景分割、三维重建等技术,在无人驾驶、增强现实等城市数字化领域得到了广泛应用。近日,特斯联科技集团首席科学家、特斯联国际总裁邵凌博士及其团队针对参考视频对象分割(RVOS)存在的问题,提出了具有语义对齐的多级表征学习框架,从而形成了该领域的科研突破。以及相关研究成果(题为:用于推荐视频对象分割的带语义对齐的多级呈现学习)已被2022年人工智能领域顶级会议CVPR(International Conference on Computer Vision and Pattern Recognition)收录。
总的来说,这一研究突破可以概括为三个方面:首先,提出了一种新的基于多级表征学习的RVOS框架。它通过更丰富和更结构化的视频表示消除了单帧建模的限制,并确保更准确的语言-视觉语义对齐。其次,引入了动态语义对齐(DSA ),在匹配语言语义和不同层次的视觉表示时,采用了更有效的自适应对齐。第三,该方法在Refer-DAVIS17和Refer-YouTube-VOS两个具有挑战性的数据集上取得了显著的性能。值得注意的是,对于J on Refer-DAVIS17,该方法与最佳单帧建模方法相比实现了6.6%的显著提升,同时在两个数据集上实现了53.2FPS的高推理速度。
指定视频对象分割(RVOS)是一种广泛应用于视频编辑、虚拟现实和人机交互的AI技术,旨在基于特定的自然语言表达,从视频中预测最相关的视觉对象。与常规的无监督或半监督视频目标分割相比,RVOS需要实现语言文本和视频内容之间的跨模态理解,而不是通过视觉显著性或关键帧标注来定位目标。
帧级建模两大局限性致 RVOS 精确度较低
我们可以简单的通过人类的认知系统来理解跨模态数据的含义。当人类在语言的指导下识别目标时,通常会采取三个步骤:1)观察目标的外观和方向(即基于帧),2)翻转多个帧以观察目标的运动状态(即基于视频),3)将更多注意力转移到被遮挡或更小的目标(即基于目标)。
目前,大多数方法只是简单地将基于图像的方法应用于视频跨模态理解。他们要么使用参考图像定位生成目标包围盒作为建议,要么直接使用参考图像分割。然而,与人类认知系统相比,这些框架级建模方法存在两个局限性:忽略长时信息和缺乏对空间显著物体的关注。
上述局限性导致视觉和语言两种模式的错位,进而产生不准确的分割结果。例如,如图1所示,当我们给出一个输入视频及其相应的描述,比如“一头狮子正向右走”,RVOS的目标就是从视频中分割出正在移动的狮子。但由于视频中有很多狮子,仅利用单帧的外观信息无法识别出正确的狮子(如图1(b))。在这里,语言所指的目标在时间上具有运动状态,因此需要观察多个帧来识别特定的动作。另外,“狮子躺在高高的岩石上”指的是被庇护的幼狮。但是,框架级建模只关注每个框架的全局语义,而忽略了一些更重要、更有代表性的视觉区域,这也会导致指向错误的目标(如图1(c))。
图一。不同造型之间的视觉比较。简单的帧级建模很难识别运动目标(B)或小的遮挡目标(C)。相反,多级建模提供了使用长期信息和空间显著线索进行跨模态匹配的联合方式,从而提供更准确的结果(A)和(D)
具有语义对齐的多级表征学习框架
在此背景下,邵凌博士团队提出了一种全新的多级学习框架来解决RVOS问题。该模型首先对视频内容进行细粒度分析,实现多粒度视频表示:
在视频粒度方面,建议使用跨帧计算对整个视频的长期依赖性进行建模,使视觉表示能够捕捉到目标的运动或动态场景信息。在单帧的粒度上,利用自注意机制整合帧内信息来描述整幅图像的全局内容。在目标的粒度上,借助于目标检测器,可以增强前景和背景的区分度,解决遮挡和小目标的情况。在实现了多层次(或多粒度)的可视化表示后,团队提出了动态语义对齐(DSA)来使它们与语言特征进行交互。为了有效捕捉特定粒度的语言信息,团队首先根据不同的视觉线索,基于视觉粒度生成相应的全局语言语义。然后,将所生成的视觉语言特征与相应的视觉特征相结合,以便为所引用的目标提供特定粒度的目标表示。最后,团队整合多粒度下的目标表示和边界信息,使用边界感知分割(BAS)来指导所有帧的分割预测。
具有语义对齐的多级表征学习经实验验证,效果优于其他竞争方法
团队还分享了基于上述解决方案和两个流行的RVOS数据集(即:Refer-DAVIS17和Refer-YouTube-VOS)的定量和定性对比实验。
Reference-Davis验证集:在使用Reference-Davis进行训练之前,团队在大规模的Reference-YouTube-Vos训练集中对模型进行了预训练,并在Reference-Davis验证集中测试了模型的性能。如表1所示,在相同的“仅预训练”情况下,与最新模型URVOS (J: 5.8%,F: 6.0%)相比,所提出的方法的性能显著提高。在Refer-DAVIS训练集中对预训练模型进行微调后,提出的方法在各项指标上都优于所有竞争方法(与URVOS相比,J: 6.6%,F: 6.1%)。此外,该团队还提供了在指定的图像分割数据集RefCOCO上对其模型进行预训练的结果,其得分高于URVOS和RefVOS等基于帧的方法。
表1。定量评价1。Refer-DAVIS17验证集,包括区域相似度J、边界精度F和JF的平均值
Reference-YouTube-Vos验证集:我们可以在Reference-YouTube-Vos验证集上进一步观察新方法的性能。如表2所示,其模型在所有指标上都明显优于SOTA。与URVOS相比,该模型的区域相似度J提高了3.1%,轮廓精度F提高了1.8%。这种方法的准确率也更高(比如prec@0.8: 5.0%%,prec@0.9: 4.8%%)。上述两个数据集的结果显示了语义对齐的多级表征学习的优越性。
表二。refer-YouTube-VOS验证集的定量评估,包括区域相似度J、边界精度F、JF平均值和成功百分比(prec@X)
此外,论文还分享了其方法的一些典型可视化结果(如图2所示)。在第一个序列中,摄像机的移动使得视频中女孩的尺寸发生变化。在第二个序列中,蓝木的车向前移动,由于外观变化很大,很难准确估计。第三和第四个序列来自同一视频,但由于局部遮挡和背景中视觉上相似的对象,它们更具挑战性。然而,该模型成功地分割了所有的目标。总体而言,由于在视觉语言理解过程中考虑了多级表示,所提出的模型实现了指定视频对象的优秀分割结果。
图二。参考-Davis 17验证集和参考-YouTube-Vos验证集的定性结果。前四个序列代表指定视频目标的分割结果,后两个序列是显著目标的预测结果。
除了指定视频目标分割结果之外,文章还在图2中提供了一些突出的目标预测结果。可以看出,所有目标预测都具有清晰的边界,包括被遮挡和小目标,这表明显著目标的生成可以提供关键的先验目标信息。
总的来说,在这项最新的研究中,邵凌博士的团队提出了一种新颖的多级表征学习框架来处理RVOS任务,该框架通过对视频、单帧和目标级语义进行编码,提供了强大而丰富的视觉表征;通过引入动态语义对齐机制,可以自适应地融合不同的模态。这一研究突破可以进一步提高视频对象分割的准确性和效率,使相应技术高效应用于包括安防、应急等城市场景。