transformer 检测(transformer 目标检测)

机器心脏报告
编辑:陈平
一种集成视觉和检测变压器的新型物体检测器ViDT。
Transformer在NLP任务中取得了不错的进展,很多研究将其引入计算机视觉任务中。毫不夸张地说,变形金刚正在改变计算机视觉的模式,尤其是在识别任务方面。例如,Detection transformer是第一个用于目标检测的端到端学习系统,vision transformer是第一个完全基于transformer的图像分类架构。在本文中,ICLR 2022收到的匿名论文集称为视觉和检测变压器(ViDT),以建立一个有效和高效的目标检测器。
ViDT引入了重新配置的注意力模块,将Swin Transformer扩展为一个独立的目标检测器,后面是一个计算效率高的Transformer解码器,使用多尺度特征和辅助技术,在不增加计算量的情况下提高检测性能。
在微软COCO基准数据集上的评测表明,ViDT在现有的完全基于transformer的目标检测器中取得了AP和延迟的最佳折衷,对大模型的高可扩展性可达49.2AP。
地址:https://openreview.net/pdf id=w4 cxzddib 1h
ViDT:视觉和检测变压器
ViDT架构如下图2 (c)所示:
首先,ViDT引入了一种改进的注意力机制,称为重新配置的注意力模块(RAM),帮助ViT变体处理额外的[DET(检测令牌)]和[补丁(补丁令牌)]令牌,用于目标检测。因此,ViDT可以将最新的带RAM的Swin Transformer主干修改为目标检测器,利用其具有线性复杂度的局部注意机制,获得高可扩展性;第二,ViDT使用轻量级无编码器颈部架构来减少计算开销,同时仍然能够在颈部模块上实现额外的优化技术。请注意,颈部编码器是不必要的,因为RAM直接提取用于目标检测的细粒度表示,即[DET]令牌。因此,ViDT的性能优于无颈部的同类产品。最后,本研究引入了一个新的用于知识提取的标记匹配概念,它可以在不影响检测效率的情况下,从大模型到小模型带来额外的性能提升。RAM模块
本研究引入RAM模块,将与[补丁]和[DET] token相关的单一全局注意分解为三种不同的注意,即[补丁][补丁]、[DET] [DET]和[DET][补丁]注意。如图3所示,通过共享[DET]和[补丁]标记的投影层,Swin Transformer的所有参数都被重用,并且执行三种不同的注意操作:
无编码器颈部结构
为了使用多尺度特征图,ViDT结合了多层可变形变压器解码器。在DETR家族中(图2 (a)),颈部需要一个变换编码器,用于将从脊柱提取的用于图像分类的特征转换成适合目标检测的特征;编码器通常计算量很大,因为它涉及[补丁][补丁]注意力。但是ViDT只保留了一个Transformer解码器作为它的脖子,因为Swin Transformer带RAM直接提取适合目标检测的细粒度特征作为独立的目标检测器。因此,ViDT的颈部结构在计算上是高效的。
解码器从带RAM的Swin Transformer接收两个输入:(1)每一级产生的[patch]token;(2)从最后一级生成的[DET]令牌,如图2 (c)的颈部所示。在每个可变形的变形层中,首先执行[DET] [DET]注意。对于每个[DET]记号,应用多尺度可变形注意力来生成新的[DET]记号,该新的[]记号是从多尺度特征图聚集的。
一小组关键内容取样于:
用于目标检测的标记匹配知识提取
虽然大模型具有高容量以实现高性能,但在实际使用中其计算成本可能非常高。因此,本研究还提出了一种简单的知识提取方法,通过令牌匹配从大型ViDT模型中转移知识。
匹配每一层的所有令牌在训练中效率非常低。因此,这项研究只匹配对预测贡献最大的标记。两组记号直接相关:(1)P: [PATCH]记号集用作多尺度特征图,由正文中的每个阶段生成,(2) D: [det]记号集,由neck的每个解码层生成。因此,基于令牌匹配的蒸馏损失公式为:
评价
表2比较了ViDT与DETR (ViT)和YOLOS的AP和FPS,其中DETR (ViT)有两个变体:DETR和可变形DETR。
实验结果表明,ViDT实现了AP和FPS之间的最佳平衡。其高可扩展性,性能优于1亿参数的Swin-base,FPS比AP相近的可变形DETR快2倍。此外,ViDT参数为16M,获得40.4AP,分别比DETR (swin-nano)和DETR (swin-tiny)高6.3AP和12.6AP。
表3比较了不同空间位置代码与ViDT(w.o. Neck)的结果。结果表明,前加法的性能高于后加法,即正弦编码优于可学习编码;因此,正弦空间编码的2D感应偏置更有助于目标检测。特别地,与没有编码相比,使用正弦编码的预添加将AP增加了5.0。
表4总结了交叉注意使用不同选择策略时的AP和FPS,其中Swin Transformer由四个阶段组成。有趣的是,只要在最后阶段激活了交叉焦点,所有的策略都表现出相似的AP。由于每个阶段都是自下而上地提取特征,所以在低层阶段很难直接获得关于目标对象的有用信息。所以研究人员想要获得更高的AP和FPS,只使用末级是最好的设计选择,因为[补丁]令牌的数量最少。
为了彻底验证辅助解码损失和迭代盒细化的有效性,研究甚至扩展了YOLOS等无颈检测器。表5显示了两种无颈部检测器YOLOS和ViDT的性能。实验结果表明,在ViDT中使用缩颈解码器来提高目标检测性能是合理的。
下图显示,教师模式的规模越大,学生模式的利润越大。从系数的角度来看,系数值越大,性能越好。模型蒸馏在不影响学生模型推理速度的情况下,提高AP 1.0-1.7。
研究人员将所有建议的组件结合起来,以实现目标检测的高精度和速度。如表8所示,有四个组成部分:(1) RAM将Swin Transformer扩展为一个独立的目标检测器,(2) neck decoder使用多尺度特征和两种辅助技术,(3)知识蒸馏受益于大模型,(4)解码层drop进一步加快推理速度。结果表明,当以Swin-nano为主干时,仅用13M的参数就可以达到41.7AP和合理的FPS。另外,使用Swin-tiny时,只损失2.7 FPS,显示46.4AP。

其他教程

ps智能对象缩小也会变模糊(photoshop中缩小当前图像和画布大小图像分辨率不变)

2022-9-1 23:42:26

其他教程

2021版ps新功能(ps5大作2022)

2022-9-1 23:44:30

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索