Ref
1. 提出任务
给定一个没有在训练集中出现过的类别的图像补丁,目的是检测出与该类别相同的所有的实例。
假设查询的图像作为未见过的测试集中的的类的原型,任务是在新的目标图像中定位查询对象最可能出现的位置(检测出新的目标的位置)
2. 解决方案
首先,采用non-local 操作对query-target匹配对探索co-attention, 并生成ROI用于目标检测框;
第二,引入squeeze-and-co-excitation scheme可以适应性的调整feature的通道权重;
第三,设计一个**margin-based ranking loss ** , 学习一种度量方式用来预测ROI和query patch的相似度。
3. Model
概述:如图1所示,模型首先通过两个以Resnet-50为backbone的Siamese Network,分别学习得到Query的特征 和Target Image 的特征;
其次为了解决query image和target image差别过大造成检测框质量差的问题,引入了non-local操作,采用如下公式分别得到non-local后的特征 ;
由于传入RPN的是Non-Local Features,不仅仅包括了target Image I中的特征,也包括了I和query patch p的权重特征,因此RPN会生成跟query patch相似的ROI;
第三,在实验过程中,还发现 的通道数是相同的,所以可以考虑采用Squeeze-and-co-excitation方法探索两种features对应通道的关联。其中,Squeeze step对应图1右下角部分,采用GAP对特征进行总结;另外co-excitation部分作为 的桥梁调整通道的权重。SCE模块的计算过程如下:
最后,提出一个Proposal ranking loss; 由于proposal框的数量很多的时候,首先用前景背景缩减数量,抛弃背景框;然后采用 提出的 margin-based ranking loss作为度量方法获取与query patch最相关的proposal bounding boxes。 Loss的公式如下:
4. 实验结果
-
VOC上测试结果
-
COCO数据集表现
-
Ablation study