基于共同注意和共同激发的小样本目标检测| NeurIPS 2019

“60门公共课免费学习:投票页面,点击导师头像”
作者| VincentLee
来源|肖飞算法工程笔记(ID: gh_084c810bc839)
引言:提出了小样本条件下的CoAE目标检测算法。该算法利用非局部分块提取目标图像和查询图像之间的对应特征,使RPN网络能够准确获取对应类别对象的位置。此外,利用类似SE块的挤压共激模块,根据查询图像加强对应的特征纬度。最后,结合基于边际的排序损失实现了本文的创新点。
地址:https://arxiv.org/abs/1911.12529
地址:https://github.com/timy90022/One-Shot-Object-Detection
论文认为,人类能够在图片中找到与模板相对应的物体,是因为人类有能力对像素进行分组,提取独特的特征进行比较,并专注于定位。因此,本文希望提出一种具有人类视觉功能的网络来解决一次性目标检测问题,给网络一个未知的查询图像,然后在目标图像中找到它的位置。本文提出的单镜头目标检测算法的特点主要来源于两种上下文信息:目标图片可以提供空间上下文,特殊物体的位置可以通过对比其他前景物体和背景找到。
目标图像和查询图像可以提供类别上下文,并且确切的类别级别由相同的属性(颜色、纹理、形状等)确定。)的模板和目标对象。
度量学习是单镜头分类的关键,但不能直接简单地应用于单镜头目标检测,因为检测器需要知道哪个区域最有可能包含目标,才能进行比较。另外,目标跟踪可以看作是小样本目标检测的一个特例。不同的是,小样本目标检测的目标图像不一定包含查询图像,图像之间存在明显的外观差异,只要具有共同的特征就可以进行分类。本文引入了一种新的机制挤压和互斥(CoAE)来增强查询图像和目标图像中新类别对象的特征。实验表明,COAE框架能更好地发现空间和类别上下文信息,带来良好的性能提醒。
方法
数据集的类别标签集定义为,进一步分为训练和测试。少样本目标检测的过程定义为:给定查询图像作为集合的一个类别对象,测试是找出目标图像的所有对应对象,假设每个可用图像包含至少一个查询对象。
本文的主要架构如下:1,主要由四个部分组成,分别是第一个基本特征提取,然后是非局部特征提取,用于提取共同特征,然后是本文提出的挤压共排(COAE)模块,用于加强目标通道,最后是度量模块,用于最佳分类。
非局部对象提议
训练集被定义为包含类别的bbox。本文采用更快的R-CNN架构进行检测,会带来一个基本问题,即RPN是否能检测到未训练类别的bbox。由于类别之间可能存在明显的差异,RPN可能无法检测bbox。为了解决这个问题,本文引入非局部运算来优化卷积特征。非局部操作是一种类似注意的操作,可以根据参考输入加强目标输入上的特征分布。有关详细信息,请参见非局部神经网络。
设它是目标图像和查询图像,目标图像的骨干网输出为,查询图像的输出为。将的非局部块输出作为参考输入,类似地,将作为参考输入,和之间的相互非局部操作可以视为一种共同注意机制。
两个扩展的特性图可以表示为公式1和公式2,它们是逐元素求和。由于它不仅包含了目标图像的特征,还包含了求和加权的特征,将RPN连接到这一层特征上,可以发现更多关于查询图像的信息,从而获得更高质量的bbox,即非局部区域建议更适合小样本目标检测。
挤压和共同激励,除了将区域提议与查询图片相关联之外,共同关注机制产生具有相同数量通道的两组特征,并且这两组特征可以通过本文提出的挤压和共同排除(SCE)根据查询图片自适应地重新加权。具体来说,挤压步骤通过GAP(全局平均池)总结每个特征图,而共同激励同时增强通道纬度的特征,专注于对最终相似性度量有用的特征。两个fc/MLP层放置在挤压层和共激发层之间,就像SE块设计一样。
SCE操作如公式3所示,对于重新强调的特征图,它是一个共激励向量,并表示元素乘积。
通过公式3,可以将查询图片表示为公式4,并且还可以获得由RPN提取的区域特征,例如针对裁剪区域的通道式间隙。
提案排名论文设计了一个两层的MLP网络M,以两类softmax结尾。RPN根据查询图片选择k个bbox,k一般为128。在训练阶段,会根据IoU是否大于0.5将K个bbox分为前台(标签1)和后台(标签0),然后用基于边缘的排序损失来指导度量学习,使最相关的BBOX出现在BBOX列表的前面。因此,本文将每个bbox的特征向量与查询图片的特征连接起来,标记为网络m的层输出分布。
本文将基于保证金的排名损失定义为公式5,是前景预测的置信度,是艾弗森括号。如果括号内为真,则输出1;否则会输出0,是前景的下限,背景的上线。实际中一般分别设置为0.7和0.3。
基于边缘的损失分为两部分,第一部分是限制前景和背景的置信度,前景必须大于0.7,背景必须小于0.3,否则会发生损失。另一部分是排名损失,根据RPN的置信度输出初始序列。这里可以看出,论文并没有设定一个真实的顺序,而是限制了正负样本的置信度差异。同一类别样本之间的置信差小于0.3,不同类别样本之间的置信差大于0.7。
最终的总损耗如公式7所示,前两个损耗分别是更快R-CNN的交叉熵和回归损耗。
实验
数据集和超参数表1显示了VOC上看得见和看不见的类别,而在COCO上,80个类别被分成4等份,然后随机抽取3个作为看得见的类别,剩下的一个为看不见的类别,如图2所示。使用SGD优化器,动量为0.9,训练10个周期,批量为128,使用8 v100,学习率为0.01,每4个周期下降10次,基于边际的排名损失。
生成目标和查询对。对于VOC,直接切gt bbox作为查询图片,而对于COCO,因为目标太小,难以被人识别,所以不能直接切。因此,使用预训练的掩模R-CNN去除过小和困难的目标。另外,实验中只使用了Mask R-CNN检测到的GT。训练时,对于目标图片,随机获取图片上看到的类别作为查询图片。测试中以图片ID为种子,查询图片顺序随机打乱。然后,选择前五个查询图像,最后计算地图。对顺序进行置乱可以保证得到的五张查询图片是随机的,从而保证验证结果的准确性。
ImageNet预训练为了保证实验的严格性,使用缩减后的ImageNet对ResNet-50进行了重新训练,去掉了COCO相关ImageNet的类别。大约有933052个图像,剩下725个类别,top-1的准确率为75.8%。完整的ImageNet包含1284168个图像,共有1000个类别
表演
至于VOC,从表1中可以看出,用减少的数据集训练的模型仍然优于基线模型,而用完整数据集训练的模型在性能上有显著提高。een类的表现比看不见的类好,因为有些类有不同的对象,比如植物,瓶子,椅子。
对于COCO,从表2可以看出,本文的模型在可见类和不可见类上都优于siame Mask-RCNN。
烧蚀实验
共同关注、共同激励和基于边际的排名
本文研究了不同策略的共享,如表3所示。首先,没有共同注意和共同激发的模型表现最差,而单独添加非局部RPN和SCE可使VOC和COCO分别增加6.3/4.4 AP和9.8/8.2AP(%),添加非局部RPN和SCE可使VOC和COCO分别进一步增加0.9/1.8 AP(%)和0.3/1.9AP(%)。这意味着共同关注和共同激励对绩效至关重要,基于利润的排名损失也非常重要。
可视化非本地对象提议的分布
为了分析非本地bbox的性能,bbox分布以热图的形式可视化,如图3所示。共关注模块使得RPN更专注于查询图片的相似区域。
将共同激发的特征可视化
为了分析共排机制是否学习了不同类别的权重分布,本文在测试过程中收集了不同类别查询图像的共排权重,最后进行平均得到每个类别的单个向量,然后用欧氏距离计算每个类别的单个向量之间的距离。从图4的结果可以看出,共激励模块已经学习了有意义的重量分布。相似物体的向量距离比较近,而人物类别与其他所有类别距离较远,说明人物类别的权重与其他类别基本不同。
共激机理分析
本文进行了两个相反的实验。首先,不同的查询图像被用于相同的目标图像。从图5的结果可以看出,p1和p2的颜色与目标的颜色相似,而p3和p4的颜色完全不同。从结果来看,结论是前两幅图像更注重颜色,后两幅图像更注重形状特征。另一种是对不同的目标图像使用相同的查询图像。从图6的结果可以看出,I1和I2更注重纹理,而I3和I4更注重形状特征。
结论
本文提出的CoAE的小样本目标检测算法能够根据查询图像提取相应的特征,在不依赖训练数据的标注信息的情况下,在COCO和VOC上达到了最先进的水平。未来的工作是将网络扩展到k-shot(k0)目标检测。
参见内容非局部神经网络。
(*本文为AI技术大本营转载,转载请联系原作者)
所有CSDN用户都可以参与投票和抽奖。
加入福利群,每周发精选学习资料,技术书籍等福利。

其他教程

直播视频采集卡的作用(直播要买采集卡吗)

2022-8-29 22:01:21

其他教程

PS5视频软件(ps5演示视频什么游戏)

2022-8-29 22:03:25

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索