【目标检测_解耦】 Revisiting the Sibling Head in Object Detector_2020

论文地址：https://arxiv.org/pdf/2003.07540.pdf

文章目录

Abstract
1. Introduction
2、Methods

2.1 TSD
2.2 Task-aware spatial disentanglement learning
2.3 Progressive constraint
2.4 Discussion in context of related works

2.4.1 Conflict in sibling head with tangled tasks
2.4.2 Different from other methods

3. Experiments

3.1 Implementation details
3.2 Ablation studies
3.3 Applicable to variant backbones
3.4 Applicable to Mask R-CNN
3.5 Generalization on large-scale OpenImage
3.6 Comparison with state-of-the-Arts
3.7 Analysis and discussion

4、Conclusion

Abstract

“用于分类和定位的共享头”(sibling head)，最早以Fast RCNN[9]命名，在过去的五年里一直引领着目标检测方面的潮流。本文观察到，sibling head 中两个目标函数之间的空间偏差会严重影响训练过程，但这种偏差可以通过一个非常简单的操作来解决，即任务感知空间分离(task-aware spatial disentanglement, TSD)。

考虑到分类和回归，TSD通过为它们生成两个解耦 proposal，将它们与空间维度解耦，这两个解耦 proposal 是通过共享的 proposal 估计得到的。这是受到对于单个目标的自然洞察力的启发。例如，一些突出区域的特征可能具有丰富的分类信息，而边界周围的特征可能擅长边界盒回归。

令人惊讶的是，这个简单的设计可以使COCO和谷歌OpenImage上的所有主骨架和模型一致地增加约3%的mAP。

此外，我们提出了一个渐进约束，以增大解耦和共享 proposal 之间的性能差距，并获得约 1% 多的 mAP 提升。我们展示了TSD在很大程度上突破了当今单模型探测器的上限(mAP 49.4 with ResNet-101, 51.2 with SENet154)，并且是我们在2019年谷歌OpenImage挑战赛上的第一名解决方案的核心模型

1. Introduction

由于开创性的R-CNN家族[10,9,30]和强大的FPN[21]实现了对目标检测性能的突破，因此后续对该任务的性能提升似乎受到了一些隐藏的瓶颈的阻碍。即使是AutoML[8,38]支持的高级算法也得到了深入研究，性能增益仍然局限于一个容易获得的改进范围。作为最明显的区别通用对象分类任务中，分类和定位的特殊兄弟头受到关注，并被广泛应用于大多数高级检测器，包括单阶段 [25、33、12]、两阶段 [5、18、40、26、19] 和 anchor free [17] 等。考虑到两个不同的任务共享几乎相同的参数，少数工作开始意识到 sibling head 中的两个对象函数之间的冲突，并试图找到一种折衷的方法。

IoU-Net[15]是第一个揭示这个问题的。他们发现产生一个好的分类分数的特征总是预测一个粗糙的边界框。为了解决这个问题，他们首先引入一个额外的head来预测IoU作为定位置信度，然后将定位置信度和分类置信度汇总为最终的分类分数。这种方法确实减少了错位问题，但是以一种折衷的方式——它背后的基本原理是相对提高一个紧边界框的信心分数，降低一个坏边界框的信心分数。在每一个空间点上，仍然存在偏差。沿着这个方向，Double-Head RCNN [35] 提出将 sibling head 解耦，用两个分支来分别进行分类和定位。尽管每个分支的设计都很复杂，但是可以认为通过添加一个新的分支就可以将信息分离出来，本质上减少了两个任务的共享参数。尽管通过这种检测头的分离可以获得满意的性能，但是由于输入到两个分支的特性是由来自相同方案的ROI池产生的，所以这两个任务之间仍然存在冲突。

在这篇论文中，我们仔细地重新讨论了anchor-based的目标探测器中的 sibling head，以寻找任务不对齐的本质。我们探讨了FPN特征金字塔中各层输出特征图的分类和定位的空间敏感性。基于常用的兄弟头(一个完全连接的头2-fc)，我们在图1中展示了空间敏感的热图。第一列是用于分类的空间敏感热图，第二列是用于定位的热图。越暖和颜色越好。我们也在第三栏展示了他们的3D可视化效果。很明显，一些突出区域的特征可能具有丰富的分类信息，而边界周围的特征可能擅长边界盒回归。这种重要的任务在空间维度上的不一致极大地限制了性能的提高，无论是改进主干还是增强检测头。换句话说，如果一个检测器试图从一个相同的空间点/锚推断分类分数和回归结果，那么它总是会得到一个不完美的折衷结果。
在这里插入图片描述
这个重要的发现促使我们重新思考兄弟头的结构。这种问题的最优解就是通过空间解耦的方法来解决。在此基础上，我们提出了一种新的基于任务感知的空间解纠缠(TSD)算子来解决这一障碍。

TSD的目标是在空间上解析分类和定位的梯度流。为了实现这一目标，TSD基于经典的sibling head中的原始 proposal，为这两个任务生成了两个独立的proposals。它允许两个任务在不影响彼此的情况下自适应地寻找空间中的最佳位置。通过简单的设计，MS COCO和谷歌OpenImage上的所有主干和模型的性能都提高了约3% mAP。

此外，我们提出了一个渐进约束(PC)来扩大TSD和传统的兄弟头之间的性能差距。引入超参数 margin （ $m_c$ 和 $m_r$ ）来得到更可靠的分类和更精确的回归。在TSD的基础上增加1%的mAP。无论是对于不同的主骨架还是不同的检测框架，集成的算法可以稳定地将性能提高约4%，对于轻量级的MobileNetV2甚至可以提高约6%。在显著的性能提高背后，只需要稍微增加一个参数，这对于一些沉重的骨干来说是可以忽略不计的。

综上所述，本文的贡献如下:

1)深入研究了基于roi的检测器中纠缠任务背后的本质障碍，揭示了制约检测性能上限的瓶颈。

2)提出了一种简单的任务感知空间解缠(TSD)算子来处理复杂的任务冲突。通过任务感知的建议估计和检测头，生成任务特定的特征表示，消除分类和定位之间的折衷。

3)我们进一步提出了一个渐进约束(PC)来扩大TSD与经典同辈头之间的性能差距。

4)我们通过深入的消融研究，在标准的COCO基准和大规模的OpenImage数据集上验证了我们的方法的有效性。通过与现有方法的比较，我们提出的方法使用单一模式的ResNet-101主干实现了49.4的mAP，使用重SENet154实现了51.2的mAP。

2、Methods

在本节中，我们首先描述我们提出的任务感知空间解缠(TSD)的总体框架，然后详细介绍第2.2和2.3节中的子模块。最后，探讨了共享头的内在问题，论证了TSD的优越性。

2.1 TSD

如图2 (a)所示，表示一个矩形边界框方案为P，地面真实边界框为B，类为y，经典的快速RCNN[30]旨在最小化基于共享P的分类损失和定位损失:
在这里插入图片描述
其中， $H_1(.)=\{f(.), C(.)\}$ ， $H_2(.)=\{f(.), R(.)\}$ ， $f(.)$ 是特征提取器， $C(.)$ 和 $R(.)$ 是将特征转化为预测特定类别和定位对象的函数。

开创性的工作[35]认为共享的 $f$ 用于分类和定位不是最优的，他们将其分别分解为 $f_c$ 和 $f_r$ 用于分类和回归。适当的头解耦虽然带来了合理的改善，但在空间维度上，由任务的纠缠所引起的内在冲突仍然潜伏着。

对于这个潜在的问题，我们的目标是通过将任务从空间维度中分离出来，来缓解sibling head 之间的内在冲突。我们为这个目标提出了一个新的TSD头，如图2所示。在TSD中，Eq. 1可以表示为:

在这里插入图片描述
其中，解耦的proposals $\hat P_c=\tau_c(P, \Delta C)$ 和 $\hat P_r=\tau_r(P, \Delta R)$ 是从共享的 $P$ 中估计得到的。 $\Delta C$ 是 $P$ 的 point-wise 的形变， $\Delta R$ 是 proposal-wise的平移。在 TSD 中， $H_1^D(.)=\{f_c(.), C(.)\}$ ， $H_2^D(.)=\{f_c(.), R(.)\}$

特别是, TSD 将P的RoI特征作为输入，然后分别为分类和定位生成解耦的proposals $\hat P_c$ 和 $\hat P_r$ 。

不同的任务可以通过分离的proposals 被从空间维度中解耦。

classification-specific 特征图 $\hat F_c$ 和 localization-specific 特征图谱 $\hat F_r$ 通过并行分支来生成。

在第一个分支， $\hat F_c$ 被送入一个三层全连接网络进行分类。在第二个分支，提取与衍生 proposal $\hat P_r$ 相对应的 RoI特征 $\hat F_r$ ，并输入与第一分支类似的架构进行定位。通过对共享的分类和定位方案的分解，TSD可以自适应地学习任务感知的特征表示。TSD适用于大多数现有的基于roi的检测器。由于训练过程采用端到端的方式，并配合精心设计的渐进约束(PC)，因此对脊骨和输入分布的变化具有很强的鲁棒性(例如，使用不同的数据集进行训练)。
在这里插入图片描述

2.2 Task-aware spatial disentanglement learning

受图1的启发，我们引入了任务感知的空间解耦学习，以缓解空间线索共享导致的不对齐现象。如图2 (b)所示，将P的RoI特征定义为F，我们将 deformation-learning 方式嵌入到TSD中来实现这一目标。

对于定位任务，三层全连接网络 $F_r$ 被用来在 $P$ 上生成一个 proposal-wise translation 来产生一个新的衍生 proposal $\hat P_r$ 。本过程可表述为:
在这里插入图片描述

其中 $∆R∈R^{1×1×2}$ ，且 $F_r$ 的每层输出大小都为 $\{256,256,2\}$ 。 $\gamma$ 是一个预定义的标量来调节∆R的幅值，且(w h)是p 的宽度和高度。生成 $\hat P_r$ 的衍生函数为 $\tau_r(.)$ :

在这里插入图片描述
Eq. 4表示 proposal-wise 的平移，其中 $P$ 中每个像素的坐标将利用相同的 $\Delta R$ 被转换到新坐标系。衍生的proposal 在 pooling 函数中将仅仅关注定位问题。我们使用双线性插值来使得 $∆R$ 可微。

对于分类任务，给定一个共享的 $P$ ，在规则的 $k \times k$ 的棋盘上生成一个逐点的形变，来用不规则的形状估计衍生的 proposal $\hat P_c$ 。对于坐标为 (x,y) 的网格，在样本点上进行平移 $\Delta C(x,y,*)$ 来为 $P_c$ 得到一个新的样本点，该过程的公式如下：

在这里插入图片描述
其中， $\Delta C \in R^{k \times k \times 2}$ ， $F_c$ 是一个三层的全连接网络，每层的输出都是 $\{256, 256, k \times k \times 2 \}$ ，且 $\theta _c$ 是学习的参数。

$F_r$ 和 $F_c$ 的第一层是共享的，为了减少参数量。为了通过不规则的 $\hat P_c$ 来产生特征图 $\hat F_c$ ，我们对可变形的 RoI pooling 使用相同的操作[5]：
在这里插入图片描述
其中 $G(x, y)$ 是坐标为 $(x,y)$ 的网格， $|G(x, y)|$ 是其中的采样点个数。 $(p_x, p_y)$ 为 $G(x, y)$ 网格中采样点的坐标， $F_B(·)$ 是能够使得 $\Delta C$ 可微的双线性插值[5]。

对proposal划分成 $k \times k$ 的网格，每个网格里边的点进行相同的平移（ $\Delta C$ ），然后对该网格进行平均池化，插值的作用是为了把坐标变为整数，每个网格保留一个点，也就是点之和除以点的总个数。

2.3 Progressive constraint

在训练阶段， $L_{cls}$ 和 $L_{loc}$ 可以联合优化Eq. 1中定义的TSD和兄弟检测头。在此基础上，我们进一步设计了递进约束 (PC)，以提高TSD的性能，如图2 ©所示。
在这里插入图片描述

对于分类分支， PC 公式如下：

在这里插入图片描述
其中， $H(y|.)$ 表示第 y 个类别的置信得分， $m_c$ 是预定义的 margin。 $|.|_+$ 是类似于 ReLU 的函数。

对于定位分支， PC 公式如下：

在这里插入图片描述
其中， $\hat B$ 是 sibling head 预测的box， $\hat B_D$ 是由 $H_2^D(F_l, \tau _r (P, \Delta R))$ 回归得到的。

如果 $P$ 是一个负的 proposal，则忽略 $M_{loc}$ 。

根据这些设计， TSD 的完整的 loss 函数加上 Faster RCNN 的 loss 函数定义如下：
在这里插入图片描述

我们直接将 loss 的权重设置为1，没有仔细调整。在L的优化下，TSD可以自适应地学习任务特征表示，分别进行分类和定位。在第3节中进行的大量实验表明，将任务从空间维度中解耦可以显著提高性能。

2.4 Discussion in context of related works

在本节中，我们将深入探讨复杂任务中的内在冲突。我们的工作与之前的工作有多方面的联系。我们详细讨论了这些关系和分歧。

2.4.1 Conflict in sibling head with tangled tasks

传统的 Faster-RCNN 的两个核心设计是预测候选区域的类别和学习回归函数。由于在优化方面的本质差异，分类任务需要 translation-agnostic属性，但定位任务需要
translation-aware 属性。
特殊的平移敏感性对分类和定位可以分别表示如下：
在这里插入图片描述

其中， $\forall \varepsilon, IoU(P+\varepsilon, B) \geq T$ ， $C$ 是预测类别概率， $R$ 是回归函数，其输出为 $(\Delta \hat x, \Delta \hat y, \Delta \hat w, \Delta \hat h)$ 。 $f(.)$ 是传统的共享头中的特征抽取器， $T$ 是判定 $P$ 是否为正样本的阈值。这两个任务有完全不同的属性。 $F_l$ 和特征抽取器中共享的空间线索可能会成为阻碍学习的障碍。不同于[35，15，5，43]，这些网络设计了进化的骨干网络或特征提取器。TSD 将分类和回归从空间维度中分开，通过分开 $\hat P_*$ 和 $f_*(.)$ 。

2.4.2 Different from other methods

IoU-Net[15]首先说明了分类和回归之间的不一致。为了缓解这种情况，它直接预测IoU通过一个额外的分支来调整分类置信度。不幸的是，这种方法不能解决复杂任务之间的内在冲突。对于同样的问题，Double-Head R-CNN[35]分别探索了分类和定位的最佳架构。为了学习更有效的特征表示，提出了一种基于可变形感兴趣区域池的DCN[5]算法来提取非规则区域的语义信息。无论是改进主干还是调整检测头，都可以提高性能，但这种提高是有限的。

在这篇文章中，我们观察到在有限的性能背后的本质问题是在空间维度上分类和定位之间的错位敏感性。无论是设计更好的特征提取方法，还是寻找最佳的架构，都不能解决这个问题。在这一困境中，提出了TSD方法，将分类和定位从空间维数和特征提取器中分离出来。TSD首先通过分离的提案和特征提取器对分类和定位进行空间分离，以打破这种困境。进一步设计好的PC，可以分别学习最优的敏感位置进行分类和定位。此外,TSD中仍然适用于DCN[5]虽然在 DCN 中可变形的RoI池用于协助估算ˆFc。通过任务感知的空间解缠，简单的TSD可以很容易地实现对不同脊椎的出色性能。

3. Experiments

我们在80类MS-COCO数据集 [23] (对象检测和实例分割)和500类OpenImageV5挑战数据集[16]上用不同的主干进行了大量的实验。对于COCO数据集，按照标准协议[27]，对80k的训练图像和35k的val图像子集进行联合训练，并对剩余的5k的val图像(minival)进行测试。我们还报告了关于20k测试-开发的结果。对于OpenImage数据集，按照官方协议[16]，在1,674,979张训练图像上对模型进行训练并进行评估在34,917张val图像上。ap .5在公共排行榜上也有报道。

3.1 Implementation details

我们在ImageNet[31]上从预先训练的模型初始化权值，超参数的配置遵循现有的Faster RCNN[30]。图像大小调整，使较短的边缘是800像素。锚尺度和长宽比设置为8和{0.5,1,2}。我们在16个gpu上(有效的小批量大小为32)对模型进行13个epoch的训练，第一个epoch的学习速率 warmup 策略[11]，从0.00125到0.04。我们分别在第8个epoch和第11个epoch将学习率降低了10倍。RoIAlign[13]在所有的实验中都被采用，在 $H_1^*$ 和 $H_2^*$ 中，池化的大小都是7。我们使用SGD以0.9动量和0.0001重量衰减来优化训练损失。除了标准的水平翻转外，没有使用任何数据扩充。采用同步BatchNorm机制[29,11]，使多gpu训练更加稳定。在推理阶段，使用具有0.5 IoU阈值的NMS来删除重复的框。对于OpenImage数据集中的实验，使用了类感知抽样。

3.2 Ablation studies

在本节中，我们对COCO minival 进行了详细的消融研究，以评估各个模块的有效性，并说明所提出的TSD的进展和推广。在这些实验中， $m_c$ 和 $m_r$ 设置为0.2。

Task-aware 解耦. 当涉及到 sibling head 的复杂任务冲突时，很自然会想到对不同的任务，从 backbone 或 head 进行分离。为了验证这些观点，我们进行了几个实验来说明它们之间的比较。

如图3所示，我们设计了不同的解耦选项，包括 backbone 解耦和 head 解耦。具体性能如表1所示。

将分类和定位与 backbone 解耦会大大降低性能。它清楚地表明，主干中的语义信息应该由不同的任务共享。

正如预期的那样，特定任务的 head 可以显著提高性能。与 $D_{head}$ 相比，TSD w/o PC可以通过略微增加的参数进一步增强AP，即使对于要求较高的AP.75。当面对大型的 backbone 时，稍微增加一个参数是微不足道的，但仍然可以显著提高性能。这也证实了第2.4.1节中关于将任务从空间维度中分离出来可以有效缓解兄弟检测头的内在冲突的讨论。

在这里插入图片描述

与兄弟头进行联合训练. 在TSD中，共享的 proposal P 还可以用于在额外的同胞头中执行分类和本地化。我们从经验上观察到手足头的训练与TSD的训练是互补的，结果如表2所示。这表明派生的提议ˆPcandˆ公关不冲突与原建议p .推理阶段,只保留TSD中头。

在这里插入图片描述

PC的有效性 在第2.3节中，我们进一步建议使用PC来提高TSD的性能。表3报告了详细的烧蚀情况。我们发现PC显著提高了ap.75 1.5，而ap.5几乎没有受到影响。这说明PC的目标是提倡对准确的盒子进行更机密的分类和精确的回归。即使在严格的测试标准下(IoU从0.5:0.95)，也可以获得1.3的AP增益。

在这里插入图片描述
为 $H_*^D$ 的衍生 proposal 学习方法 有不同的可编程策略生成派生提议ˆPrandˆPcincluding proposal-wise翻译(Prop.w) Eq。4,点态变形(Point.w)等可变形的RoI池[5]或它们的复杂组合。为了探索这些学习方式的差异，我们用ResNet-50对COCO minival进行了大量的实验。表4为比较结果。这些比较说明了这一点。w有利于分类任务的完成，与PC、Prop配合使用。w在本地化方面有一点优势。为了生成派生的建议，分类需要不受规则形状限制的最优局部特征，而回归需要维护全局几何形状信息。

在这里插入图片描述
深入研究有效的PC PC证明了它在回归更精确的边界框方面的优势。超参数mcm和mrm在TSD的训练中起着重要的作用，为了更好的了解它们对TSD表现的影响，我们对它们进行了详细的消融研究。图4报告了结果，并注意到 $M_{los}$ 和 $M_{cls}$ 都进一步提高了性能。

3.3 Applicable to variant backbones

由于TSD和PC已经用FPN在ResNet-50上表现出了优异的性能，我们进一步研究了其在不同 backbone 上的适应性。基于Faster R-CNN，我们直接对不同的骨架和表进行了多次实验。5总结了COCO minival的详细性能。TSD可以稳定地将性能提高3% ~ 5%，而额外的时间成本为10%。值得注意的是，参数为58.9M的ResNet-50+TSD甚至可以优于参数为76.39M的ResNet-152。基于ResNet家族，TSD是一个比增加主干更好的选择来提高性能。如果没有指定，所有后续TSD都表示TSD+PC。

在这里插入图片描述

3.4 Applicable to Mask R-CNN

本文所提出的算法在很大程度上超越了经典的 Faster-RCNN。它的固有属性决定了它对其他R-CNN家族的适用性，例如Mask R-CNN实例分割。为了验证这一点，我们使用掩模R-CNN[13]进行实验。性能如表7所示，掩模R-CNN的训练配置与 Faster R-CNN的实验相同。很明显，在掩码R-CNN中，TSD仍然能够检测出分支。实例分割掩码AP也可以获得提升。

3.5 Generalization on large-scale OpenImage

除了对COCO数据集进行评估外，我们还在大规模的OpenImage数据集上进一步验证了所提出的方法。作为具有大尺度 box 和层次属性的公共数据集，它给检测算法的泛化带来了新的挑战。为了充分研究该算法的有效性，我们对TSD进行了大量的分析。表6说明了对比，并指出，即使对于大的骨干网络，TSD仍然可以提供令人满意的改进。此外，TSD与Cascade R-CNN[2]是互补的，将其嵌入到这个框架中也可以将性能提升到令人满意的程度。
在这里插入图片描述

在这里插入图片描述

3.6 Comparison with state-of-the-Arts

在这一节中，我们将评估我们在COCO test-dev set 的效果，并将其与其他最先进的方法进行比较。 $m_c$ 和 $m_r$ 分别设置为 0.5 和 0.2。为了公平的比较，我们在表8中报告了我们的方法在不同设置下的结果。为了与Grid R-CNN[27]进行比较，我们延长了ResNet-101的训练周期以与之一致。为了与最好的单模型TridentNet∗相比，在TSD∗中，我们使用与它相同的配置，包括多尺度训练、软- nms[1]、可变形卷积以及ResNet-101上的3×训练方案。最好的单模式ResNet101-DCN的AP为49.4，已经超过了所有其他具有相同主干的方法。据我们所知，对于一个拥有ResNet-101主干的单一模型，我们的结果是最先进的。TSD证明了它在促进精确定位和机密分类方面的优势，特别是在较高的IoU阈值上(AP.75)。此外，我们还研究了具有重骨干的TSD的上界。令人惊讶的是，它可以在COCO test-dev set上使用单一型号的SENet154DCN来实现51.2的AP。

3.7 Analysis and discussion

在不同IoU标准下的性能 由于TSD在回归精确定位和预测准确类别方面表现出优越的能力，我们对COCO minival 进行了几次更严格的IoU评估。图6显示了基于TSD的 Faster R-CNN与基线的 Faster R-CNN之间的比较，两者具有相同的ResNet50主干，跨越IoU阈值0.5到0.9。显然，随着IoU门槛的提高，TSD带来的改善也在增加。
在这里插入图片描述
在不同尺度下的表现 我们分析了不同IoU标准下TSD的有效性。为了更好的探索具体的改进，我们进一步在不同尺度的对象下测试地图。表9报告了性能，TSD在具有不同尺度的对象中显示了成功，特别是对于中型和大型对象。
在这里插入图片描述
TSD学到了什么? 由于任务感知的空间解缠(TSD)和渐进约束(PC)，无论是对于不同的主骨架还是不同的数据集，都可以轻松实现稳定的改进。除了数量上的提升，我们还想知道TSD和fast R-CNN的兄弟头儿相比学到了什么。为了更好地解释这一点，我们展示了我们的TSD与sibling head的对比图，如图5所示。正如预期的那样，通过TSD，它可以消除许多误报并返回更精确的盒边界。

对于 $\hat P_r$ ，它趋向于平移到那些不易回归的边界（红色框）。
对于 $\hat P_c$ ，倾向于关注在局部外观和目标的上下文信息（红色点，也是每个 grid 的中心点），就像它在具有可变形 RoI pooling 的 sibling head 中所做的那样。
注意，兄弟头中的复杂任务可以有效地利用空间维度进行分离。

4、Conclusion

本文提出了一种简单的TSD算子，通过学习任务感知的空间解耦来减轻 sibling head 中存在的固有冲突。特别是，TSD从共享 proposal 中衍生出两个独立的 proposals，并分别学习用于分类和定位的特征。此外，我们提出了一个递进约束来进一步提升TSD的效果，从而提供额外的性能收益。没有附加功能，这个简单的设计可以很容易地将COCO和大型OpenImage上的大多数主骨架和模型提升3% ~ 5%，这是我们2019年OpenImage挑战的第一个解决方案中的核心模型。

呆呆的猫

发布了152 篇原创文章 · 获赞 716 · 访问量 69万+

他的留言板关注