CVPR2021-YOLOF 单阶段检测网络去除FPN | You Only Look One-level Feature

论文地址:https://arxiv.org/pdf/2103.09460.pdf
Github地址:https://github.com/megvii-model/YOLOF.在这里插入图片描述

Abstract:

本文回顾了用于一阶段检测器的特征金字塔网络(FPN),并指出FPN的成功在于其对目标优化问题的分治解决方案,而不是多尺度特征融合。从优化的角度来看,我们引入了一种替代方法来解决问题,而不是采用复杂的特征金字塔-仅使用一级特征进行检测。在简单有效的解决方案的基础上,我们提出了“仅看一级特征“(YOLOF)。在我们的方法中,提出了两个关键组件,即膨胀编码器和均匀匹配,它们带来了可观的改进。在COCO基准上的大量实验证明了该模型的有效性。我们的YOLOF通过其特征金字塔对应的RetinaNet达到了可比的结果,同时速度提高了2.5倍。没有transformer层,YOLOF可以以单级特征的方式与DETR的性能相匹配,训练时间减少了7倍。 YOLOF的图像尺寸为608 x 608,在2080Ti上以60 fps的速度运行时可达到44.3 mAP,比YOLOv4快13%。

Introduction:

现有研究都是人为FPN的成功是因为多尺度特征融合,于是忽略了FPN中分而治之的功能。此外吗, 关于这两个因素如何有助于FPN成功并可能阻碍新进展的研究较少。

本文首先研究了FPN中以上两个因素的功能。 通过使用RetinaNet解耦多尺度特征融合和分治功能来设计实验。 具体的说将FPN分为MIMO,SiMo,MiSo,SiSo四种进行对比实验。Si与Mi表示单级和多级输入,So和Mo表示单级和多级输出,具体结果如下图所示:
在这里插入图片描述
实验中惊讶的发现吗,仅具有一个输入特征C5且不执行特征融合的SiMo编码器可以与MiMo编码器(即FPN)达到可比的性能。这些现象表明了两个事实:

(1)C5特征具有足够的上下文来检测各种尺度的物体,这使SiMo编码器可以获得可比的结果

(2)多尺度特征融合的好处远不如分治法那么重要,因此多尺度特征融合可能不是FPN的最大优势

本文基于此发现,提出仅使用一个C5特征(降采样率为32)进行检测的检测器YOLOF。 为了弥合SiSo编码器和MiMo编码器之间的性能差距,本文首先适当设计编码器的结构,以提取各种尺度下目标的多尺度上下文,以弥补缺乏多层特征的不足; 然后,本文采用均匀匹配机制来解决单个特征中稀疏锚产生的正锚的不平衡问题。

Cost Analysis of MiMo Encoders:

在这里插入图片描述
本文首先分析了MiMo结构中的各个部分的代价,将检测网络分类骨干网,编码器和解码器3个主要组成部分。 在图3中显示了每个组件的FLOPs。与SiSo编码器相比,MiMo编码器给编码器和解码器带来了巨大的存储负担(134G vs. 6G)(图3)。 此外,带有MiMo编码器的探测器运行速度比带有SiSo编码器的检测器要慢得多(13 FPS对34 FPS)(图3)。 速度较慢是由于使用MiMo编码器在检测器中的高分辨率特征图上检测到目标所致,例如C3特征(降采样率为8)。 鉴于MiMo编码器的上述缺点,本文旨在找到一种替代方法来解决优化问题,同时保持检测器的简单,准确和快速。
在这里插入图片描述

YOLOF:

经过分析,SiSo编码器带来的两个问题是检测性能下降的原因:
第一个问题是与C5特征的接收场相匹配的尺度范围有限,这会妨碍跨各种尺度目标的检测性能。
第二个问题是单级特征中稀疏锚产生的正锚的不平衡问题。

接下来,本文细讨论这两个问题并提供了相应的解决方案:

1.Limited Scale Range:
单级特征带来的问题就是单一的感受野范围与多尺度之间的不适配问题,本文通过提出一个Dilated Encoder来解决这个问题:
在这里插入图片描述
Dilated Encoder:包含Projector和Residual Blocks两个部分,其中Projector首先应用一个1 x 1卷积层以减小通道尺寸,然后添加一个3x3卷积层以细化语义上下文,这与FPN中的相同。Residual Blocks采用4个带不同空洞率大小的残差组合组成,以生成具有多个感受野的输出特征,覆盖所有目标尺度。

2.Imbalance Problem on Positive Anchors:
在这里插入图片描述

一阶段网络采用max iou方法来定义正负样本。但是,当采用SiSo编码器时,与MiMo编码器中的锚相比,锚的数量从100k减少到5k,从而大大减少了锚的数量。 如上图所示,当应用Max-IoU匹配时,稀疏锚会给检测器带来一个匹配问题,大的gt box比自然的小型gt box诱导出更多的正锚,这会引起正锚的不平衡问题。 这种不平衡使得探测器在训练时会注意大型的gt box,而忽略小型的gt box。因此,本文提出Uniform Matching的方式来定义正负样本。

Uniform Matching:为了解决正锚中的这种不平衡问题,本文提出了一种均匀匹配策略:对于每个gt,采用k个最接近的锚作为正锚,这可以确保所有gt在不考虑尺度的情况下,都能均匀地匹配相同数量的正锚(图6)。 正样本中的平衡可确保所有真实情况的参与者参与培训并做出同等的贡献。 此外,遵循Max-IoU匹配,本文在均匀匹配中设置IoU阈值,以忽略大IoU(> 0:7)的负锚和小IoU(<0.15)的正锚。

Experiments:

1. VS RetinaNet:
在这里插入图片描述
2.VS DETR
在这里插入图片描述
3.VS YOLOV4:
在这里插入图片描述
4.Ablation Experiments:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42096202/article/details/114979851