编者按:随着自监督学习研究的逐步深入,迁移学习的范式已经广泛应用于视觉学习的各个领域,大量的视觉任务都是利用自监督预训练和监督微调来部署的。微软亚洲研究院的研究人员希望打破这种范式。在NeurIPS 2021发表的论文中,研究人员提出了一种可以从无标签视频中学习物体检测和分割的模型,使得自监督预训练模型可以直接服务于应用,而无需任何监督微调,实现了零标签学习。
对比学习是当前训练视觉自我监控模型中的主流方法。其核心思想是将训练数据集中的每个独立样本视为一个类别,设计预训练的任务是独立个体的识别。由于每个类别中只有一个样本,因此个体识别将非常简单。研究人员通常使用数据增强技术为每个样本创建丰富的类内样本。对于图片,数据增强大致包括:平移、缩放、翻转、颜色对比和颜色变化、模糊、灰度变换等等。这些图像增强技术虽然改变了图像的细节,但没有改变图像描述的语义内容。实际上,比较学习是学习这些增强变换的不变特征表示。从实验中可以看出,比较学习非常依赖于数据增强。
图1:比较学习依赖于底层的图像增强技术,学习是不变的。常见的图像增强技术:平移、缩放、色彩增强、局部模糊等。
比较学习作为一种预训练方法,只学习一种特征表征,但这种特征表征需要一些(少量)有监督的下游数据进行微调训练,才能应用于下游任务。虽然预训练表征可以极大地提高下游任务的微调性能,但是依赖微调的特性已经成为自我监控模型本身的缺陷和不足。
图2迁移学习的框架:一般预训练具体任务的微调。自监督学习必须使用下游任务的少量监督数据,才能服务于应用。
从视频中检测和分割学习对象
基于对比较学习缺陷的分析和理解,微软亚洲研究院的研究人员希望设计一种自我监控模型,可以直接应用于下游任务,无需微调。为了实现这个目标,研究人员开始从视频中寻找有用的信息。与计算机学习图片识别任务不同,人类是从一个不断变化的时间序列信号中学习的。一个连续的视频信号包含了很多有用的信息,这些信息在图像中是不存在的。例如,视频可以描述物体的运动及其变形;然而,对于静止图片数据集,很难在数据集中多次捕捉对象。再比如,通过几何方法,研究人员可以从视频中重建出一个物体的三维形状,但从静态图片中也很难恢复。因此,研究人员希望从视频中分析物体的运动形式,帮助检测物体的存在,并用其运动形式分割物体的形状。
视图合成任务(视图合成)
首先,研究人员需要从视频中找到合适的自由监督信息,以了解对象检测和分割。视频中一个常见的学习目标是视图合成任务。具体地,给定视频的两个图像,一个初始图像和一个目标图像,视图合成任务将试图学习扭曲函数,以模拟从初始图像到目标图像的像素重构过程。这个看似简单的任务,却有着丰富的应用场景。例如,如果使用像素到像素的对应关系来表示这个失真函数,那么视觉合成任务可以实现自监督光流学习。再比如,如果可以获得摄像机的参数,就可以使用视觉合成任务来估计自监督单通道的深度。实现不同自我监控任务的关键是找到一个合适的表示,它不仅可以完成视图合成任务,还可以实现相关的应用任务,如光流和深度估计。又例如,先前的工作设计了一种新的多平面图像表示方法,以实现双目图像的立体增强。
图3:视图合成任务可以驱动新的多平面图形表示,
这种新的表示有助于在大基线的情况下生成视图。
摘自照片论文《立体放大:利用多平面图像学习视图合成》。
研究人员希望视图合成的任务可以用于检测和分割对象。与以往工作最大的不同是,他们试图提取和学习图像的中级甚至高级表征,而不仅仅是学习图像的一些低级表征。为此,研究人员设计了一种新的表示和模型AMD(外观-运动分解)来实现零标签对象分割。
相关论文《客观性的突发事件:从视频中学习零镜头分割》已被NeurIPS 2021收到。
纸质链接:
https://papers . nips . cc/paper/2021/file/6 d9 CB 7 de 5 e 8 AC 30 BD 5 e 8734 BC 96 a 35 c 1-paper . pdf
流分割和AMD模型
图4显示了AMD模型的基本框架。该模型主要由两个框架网络组成:出现路径和运动路径。给定一个帧的输入帧I,形状网络将把它分成几个区域,在这个例子中是三个。给定两个连续帧的输入帧I和帧j,运动网络将首先提取描述空间对应的运动特征,然后估计由形状网络预测的每个区域的总光流偏移。
图4:4的基本框架:AMD模型。下面的分支是预测分割的形状网络,
上面的分支是预测分流的运动网络。整个模型以视图合成任务为训练目标。
在这里,利用格式塔原理共同命运的假设,研究人员认为每个区域共享一个单独的光流。这个假设对于一些刚性物体的运动是一个很好的估计,但是对于复杂的变形物体是不成立的。根据每个区域和对应区域的预测光流值,研究人员重建了一个光流图。因为这种光流受分割结果的限制,只有很低的自由度,所以称为段流。在你得到这个分割流之后,你就可以把I帧warp包裹到j帧上,重构的j帧可以和实际观测进行对比,来监督整个网络的学习。
AMD模型解耦了一个视频的外观信息和运动信息,从而实现了零标签在图像分割中的应用。在实现方面,传统的ResNet50结构应用于shape网络,普通的PWC-Net应用于sports网络。两个网络都是从零开始训练的,没有任何预训练初始化。经过预训练后,形状分支可以直接应用于全新的图片,实现图像分割,无需任何微调。值得注意的是,训练AMD模型并不需要加入大量的图像增强技术。这在一定程度上减轻了对比较学习的依赖。
图5:光流和分流的比较。光以单个像素为基本单位来描述物体的运动,
流分割以局部区域为基本单位来描述运动。可以看出由于其精确的描述,
光线随时间变化很大,很难准确分割物体。
研究人员虽然牺牲了运动的准确性,但获得了对物体结构的认知。
下游应用和实验结果
无需任何微调,研究人员的AMD模型就可以应用于图像分割和视频运动对象等分割任务。对于图像分割,研究人员只需要迁移图网络分支。当在显著性检测数据集dut上测试时,图6显示了分割效果。因此,研究人员的预训练模型不仅可以检测和分割“可移动物体”,还可以推广到分割一些静态物体,如雕塑、盘子、长凳、树木等。
图6:显著性检测对dut的测试效果
要分割视频中的运动对象,需要迁移AMD模型的所有两个分支。对于一个测试视频,为了利用运动信息,研究人员使用了测试时间适应技术。具体来说,研究人员还使用了视图合成的自我监控任务来优化测试视频,并在三个数据测试集(模型从未见过这些数据集的训练集)上测试AMD模型。结果表明,AMD模型在两个数据集上大大优于现有方法。图7显示了具体的性能和可视化结果。
图7:视频中的运动物体分割。上图是目测对比,下表是数值对比。
摘要
本文试图提出并设计一个零标签自监督学习模型。该模型无需任何微调即可用于某些应用场景。这项研究工作将视频中的外观和运动表示解耦,使分割和检测对象成为可能。研究人员还希望这项研究能够激发更多与零标签学习相关的任务。
参考
1.周婷慧,约翰弗林,格拉汉姆费菲和诺亚斯内夫利。使用多平面图像的立体放大:学习视图合成。arXiv预印本arXiv:1805.09817,2018。
2.克莱门特戈达尔、奥辛麦克奥德哈、迈克尔菲尔曼和加布里埃尔J布罗斯托。深入研究自我监督的单目深度估计。IEEE/CVF国际计算机视觉会议论文集,第3828-3838页,2019年。
3.熊、余、林大华。通过非参数实例鉴别的无监督特征学习。IEEE计算机视觉和模式识别会议论文集,第3733-3742页,2018年。
4.孙德清、杨晓东、刘明宇和简考茨。Pwc-net: Cnns用于使用金字塔、扭曲和成本体积的光流。IEEE计算机视觉和模式识别会议论文集,第8934-8943页,2018年。
看完今天的论文分享,你还意犹未尽吗?想了解更多计算机前沿研究?我们特意为大家准备了NeurIPS 2021年11月18日论文分享会的视频回放!点击下面的链接,来观看吧!更多NeurIPS 2021论文回放,请关注b站“微软中国视频中心”账号。
温馨提示:今天分享的论文是视频中00:00到17:10。
https://m.bilibili.com/video/BV1RZ4y1X7Cp