机器心脏报告
机器之心编辑部
视频分割效果优于现有的所有方法。入选CVPR 2022的这篇论文是用Transformer解决CV任务的又一个例子。
基于注意力的深度神经网络(DNN)在自然语言处理和计算机视觉等不同领域的各种任务中表现出了优异的性能。这些发展使得这种网络(如Transformer)成为解决多模态问题的有力候选。尤其是最近一两年,变形金刚模型已经开始在CV任务上下功夫,从目标识别到探测,效果比一般的CNN视觉骨干网要好。
参考视频对象分割(RVOS)的任务涉及给定视频帧中文本参考对象实例的分割。相比之下,在更广泛研究的参考图像分割任务(RIS)中,对象主要通过它们的外观来参考。在RVOS中,对象可以被它们正在执行或参与的动作引用。这使得RVOS比RIS复杂得多,因为引用动作的文本表达通常不能从单个静态框架中推导出来。
此外,与基于图像的RIS不同,RVOS方法可能还需要跨多个帧建立参考对象的数据关联(即跟踪),以处理遮挡或运动模糊等干扰。
为了解决这些挑战,现有的RVOS方法通常依赖于复杂的流水线。在CVPR 2022收到的论文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,以色列理工学院的研究人员提出了一种基于变压器的简单端到端RVOS方法,3354多模态跟踪变压器(MTTR)。
地址:https://arxiv.org/pdf/2111.14821.pdf
项目地址:https://github.com/mttr2021/MTTR
拥抱脸空间梯度演示:https://huggingface.co/spaces/akhaliq/MTTR
具体来说,他们使用MTTR将任务建模为序列预测问题。给定视频和文本查询,该模型在确定文本所引用的对象之前,为视频中的所有对象生成预测序列。而且他们的方法不需要与文本相关的归纳偏差模块,使用简单的交叉熵损失来对齐视频和文本。所以这个方法比以前简单多了。
研究人员提出的管道图如下所示。首先,使用标准的Transformer文本编码器从文本查询中提取语言特征,使用时空编码器从视频帧中提取视觉特征。然后,这些特征被传递到多模态转换器,以输出几个对象预测序列。然后,为了确定哪个预测序列最能对应参考对象,研究人员计算了每个序列的文本参考分数。为此,他们还提出了一种时序分区投票方案,使得模型在决策时聚焦于最相关的部分。
从实验结果来看,MTTR在A2D语句和JHMDB语句数据集上分别实现了5.7和5.0的mAP增益,同时能够每秒处理76帧。
研究人员还展示了一系列不同物体之间的实际分割效果,例如穿着白色t恤和蓝色短裤的冲浪者(淡黄色冲浪板)。
是另一个顽皮猩猩的例子。
网友对本次调研展示的视频对象分割效果赞不绝口。有人说,即使在重叠的物体上,分割效果也非常有效。
方法介绍
任务定义。RVOS的输入是一个帧序列。
,其中
;文本查询是
,其中t_i为文中第I个单词;尺寸是
的感兴趣帧的子集是
,目标是在每一帧
在0中拆分对象
。
特征提取。在本研究中,深度时空编码器用于从序列V中的每一帧提取特征.同时,使用基于Transformer的文本编码器从文本查询T中提取语言特征.然后,将时空和语言特征线性投影到共享维度d上。
实例预测。之后将感兴趣的帧特征进行扁平化处理,用文本嵌入分别连接,得到一组T_I多模态序列,并行馈入Transformer。在Transformer的编码器层,文本嵌入与每帧的视觉特征交换信息。然后,解码器层为每个输入帧提供N_q个对象查询,查询与实体相关的多模态序列并存储在对象查询中。在本研究中,这些查询(在图1和图2中用相同的颜色和形状表示)被称为属于相同实例序列的查询。这种设计允许自然跟踪视频中的每个对象实例。
产出生成。Transformer输出的每个实例序列都会生成一个相应的掩码序列。为了实现这一点,本研究使用了类FPN空间解码器和动态生成的条件卷积核。最后,研究使用基于掩码和文本关联的文本参考得分函数来确定哪个对象查询序列与T中描述的对象关联最强,并返回其分段序列作为模型的预测。
时间编码器。适合RVOS任务的时间编码器应该能够提取视频中每个实例的视觉特征(例如,形状、大小、位置)和动作语义。相比之下,这项研究使用端到端的方法,没有任何额外的掩模细化步骤,可以使用单个主干完成。最近,研究人员提出了视频Swin Transformer [27],作为Swin Transformer到视频领域的推广。最初的Swin在设计时就考虑到了密集预测(比如分割),Video Swin在运动识别的基准上进行了大量的测试。
据了解,本研究首次使用Video Swin(稍加修改)进行视频分割。与I3D不同,Video Swin只包含一个时间下采样层,研究人员可以很容易地修改它,以输出每一帧的特征图。因此,视频Swin是处理完整的连续视频帧序列进行分割的较好选择。
实例分割过程
示例分割过程如图2所示。
首先,给定最后一个Transformer编码器层输出的更新后的多模态序列F_E,本研究提取每个序列的视频相关部分(即第一个H W token)并将其重构为一个集合。
。然后,本研究使用时间编码器的前N-1个模块的输出。
,并使用类FPN[21]空间解码器G_Seg将它们与
分层融合。这个过程产生了视频帧的语义丰富的高分辨率特征图,表示为F_Seg。
接下来,对于由变换器解码器输出的每个实例序列
,本研究使用一个两层感知器G_kernel生成相应的条件划分核序列。
最后,通过将每个分割的核与其对应的帧特征进行卷积,结果是
生成一系列分裂掩膜M,然后进行双线性上采样操作,将掩膜大小调整到真实分辨率。
实验
本研究在A2D句子数据集上对MTTR和SOAT方法进行了比较。如表1所示,该方法在所有索引方面都优于现有的所有方法。
例如,这个模型比当前的SOTA模型高4.3 mAP,这证明了MTTR可以生成高质量的遮罩。该研究还指出,与当前的SOTA技术相比,顶级配置(w=10)的MTTR实现了5.7的mAP改善以及6.7%的平均IoU和整体IoU的绝对改善。值得一提的是,这种配置可以在单个RTX 3090 GPU上每秒处理76帧的同时做到这一点。
根据前面的方法[11,24],本研究在没有微调的情况下,评估了模型在JHMDBSentences上的泛化能力。这项研究从每个视频中采样三帧,并在这些帧上评估模型。如表2所示,MTTR方法具有良好的通用性,优于现有的所有方法。
表3报告了在Refer-YouTube-VOS公开验证集上的结果。与现有的方法[24,37]相比,这些方法在完整的数据集上进行训练和评估。尽管这一研究模型是在更少的数据上训练的,并在更具挑战性的子集上进行评估,但MTTR在所有指标上都表现出色。
如图3所示,MTTR可以成功地跟踪和分割文本参考对象,即使在具有挑战性的情况下,它们在视频的很大一部分中被相似的实例包围,被遮挡或完全超出相机的视野。
参考链接:3359 www.reddit.com/r/machinelearning/comments/t7qe6b/r _ endtoend _ refining _ video _ object _ segmentation/