摘要
在这项工作中,作者提出了SwiftNet for real-time video object segmentation(VOS),它报告了77.8%的J F和70 FPS DAVIS 2017 test-dev数据集,在所有现有解决方案的整体准确性和速度性能方面都非常出色。作者使用像素自适应记忆(PAM)来压缩基于匹配的VOS中的时空冗余以达到这个目的。暂时地,PAM自适应地只在对象显示发生显著变化的帧上触发更新。在空间上,PAM只对临时改变的像素执行存储器更新和匹配,这显著减少了在分割不相关像素时浪费的计算量。此外,SwiftNet引入了光学聚合编码器,通过简化参考编码来加速细分。代码将被公开,作者希望SwiftNet可以作为有效视频对象分割的有力基线,促进视频对象分割在移动视觉中的应用。
论文的创新点
简而言之,本文突出了三个主要贡献:3360
建议SwiftNet在整体分割准确性和速度方面创造新的记录,从而为开源实时VOS提供一个强有力的基准。指出时空冗余是实时VOS的致命弱点,采用像素自适应记忆结合变化感知触发和像素更新匹配来解决这一问题。还引入了光聚合编码器(LAE)来实现高效和全面的参考编码。在DAVIS 2016和2017以及YouTube-VOS数据集上进行了大量实验,在77.8% J f和70 FPS的速度下取得了最佳的整体分割精度和速度性能。框架结构
SwiftNet方法描述。首先,执行由黑色实线表示的操作来生成分区掩码,然后使用虚线来更新内存。
这是一个压缩非局部计算的例子。为简单起见,省略了下标t。
实验结果
在DAVIS17验证集上显示SwiftNet (ResNet-50)定量结果。
戴维斯2017验证集上的定量结果。以下所有表格中,OL代表在线学习,实时法在水平线以下。
结论
作者提出了一个名为SwiftNet的实时半监督视频对象分割(VOS)解决方案,它提供了最佳的整体准确性和速度性能。SwiftNet使用像素自适应内存(PAM)显式压缩基于匹配VOS的时空冗余,实现实时分割。在PAM中,通过使用变化感知触发器来减少时间冗余,该触发器自适应地选择增量帧用于存储器更新,同时忽略静态帧。像素级内存更新匹配模块消除了空间冗余,放弃了全帧操作,只对临时变化的像素进行逐步处理。此外,光聚合编码器的设计有利于综合和加速参考帧编码。总的来说,SwiftNet非常高效且兼容。通过发布源代码,作者希望它能为更多实时VOS解决方案的到来打下坚实的基础。
论文链接:https://arxiv.org/pdf/2102.04604.pdf
分享日报并不容易。如果你喜欢我们的内容,希望你推荐或者转发给你的同学。