提出了一种新的自监督视频对象分割方法(VOS ),旨在提高对象与背景的可分辨性,从而实现准确的对象分割。与以往的自监测VOS方法不同,我们的方法是基于判别学习损失公式,考虑了物体和背景的信息,以保证物体和背景的可分辨性,而不是只利用物体的外观。判别学习损失包括基于cut(cut区域代表一帧的一部分,其像素用一些常数值代替)和标签预测损失项的重建。基于切口的重建使用简单的切口方案来学习当前帧和前一帧之间的像素级对应关系,从而可以通过添加切口区域来重建原始的当前帧。本文介绍的分割补丁引导模型不仅关注感兴趣对象的重要特征,还关注不重要的特征,从而隐式地使模型能够解决基于排除的情况。接下来,标签预测项通过将剪切区域中所有相似像素的标签分组并将它们与其他构建的帧像素的标签分开,鼓励将对象与背景分开。此外,我们引入了一种放大方案,通过在多个尺度上捕捉精细结构信息来解决小对象分割的问题。我们提出的方法CT-VOS在两个具有挑战性的基准上取得了最先进的结果。戴维斯-2017和Youtube-VOS。详细的烧蚀显示了所提出的损失公式对于有效捕获对象-背景的可分辨性的重要性,以及我们的放大方案对于精确分割小尺寸对象的影响。
《Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging》
报纸地址:http://arxiv.org/abs/2204.10846v1
:01 0-350009