无监督视频对象分割(UVOS)是每个像素的二值标记问题。其目的是在不使用前景对象的地面真实(GT)遮罩的情况下,从视频中分离前景对象。我们的问题是为什么要选择第一帧作为参考帧,或者为什么要用整个视频来指定遮罩。我们相信,与仅使用第一帧或整个视频作为参考帧相比,我们可以选择更好的参考帧来实现更好的UVOS性能。在我们的论文中,我们提出了一个简单的帧选择器(EFS)。EFS使我们能够选择一个“简单”的参照系,使随后的VOS变得简单,从而提高VOS的性能。此外,我们提出了一个新的框架称为迭代掩模预测(IMP)。在这个框架中,我们对给定的视频重复应用EFS,并从视频中选择一个比先前迭代“更容易”的参考帧,以逐渐提高VOS性能。IMP由EFS、双向掩码预测和时间信息更新组成。从提出的框架来看,我们已经在三个UVOS基准测试集中实现了最先进的性能。戴维16,FBMS和赛格特拉克-V2。
《Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video Object Segmentation Easier》
报纸地址:http://arxiv.org/abs/2112.12402v1