最新的视频对象分割(VOS)方法学习帧之间的低级像素到像素对应关系,以在视频中扩展对象遮罩。这需要大量带有密集标注的视频数据,标注的成本非常高,而且由于视频中的帧高度相关,基本上是冗余的。鉴于此,我们提出了HODOR:一种有效利用带注释的静止图像理解物体外观和场景背景的求解VOS的新方法。我们将图像帧中的对象实例和场景信息编码到强大的高级描述符中,然后可以使用这些描述符在不同的帧中重新分割这些对象。因此,与现有的没有视频标注的方法相比,HODOR在DAVIS和YouTube-VOS的基准上取得了最先进的性能。在没有任何架构修改的情况下,HODOR也可以通过使用循环一致性从单个带注释的视频帧周围的视频环境中学习,而其他方法则依赖于密集和时间一致的注释。
《HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images》
报纸地址:http://arxiv.org/abs/2112.09131v1