简介

在这里插入图片描述

图1：论文原文

${\rm YOLOv4}$ 是继 ${\rm YOLOv3}$ 之后提出的又一高性能目标检测算法。 ${\rm YOLOv3}$ 凭借其结构简单、便于实现、实时性好、精度高等特点，在实际中被广泛应用。 ${\rm YOLO}$ 系列是一阶段目标检测方法的代表，而 ${\rm v3}$ 又是这一系列算法的代表，相比于 ${\rm YOLOv3}$ ， ${\rm YOLOv4}$ 在大幅提高精度的前提下保证了模型的实时性。
论文原文源码

在进行下面部分前，我们首先了解 ${\rm YOLOv3}$ 的相关内容。如下图（图来自这里）：在这里插入图片描述

图2：YOLOv3

首先， ${\rm YOLOv3}$ 的特征提取部分使用的是 ${\rm DarkNet53}$ ，其结构如下图：在这里插入图片描述

图3：Darknet53

${\rm DarkNet53}$ 的特点有：使用步长为 $2$ 的卷积操作代替池化；仅使用 $3×3$ 和 $1×1$ 的小卷积核；通过堆叠残差模块形成最终的网络结构（这也是现在很多模型采用的方法，即首先定义每一个块的结构，然后以合适的方式堆叠不同数量的块）。

其次，由于是一阶段算法， ${\rm YOLOv3}$ 直接回归目标的类别和边界框，如图 $2$ 中蓝色输出块所示，其共产生三种不同尺度的输出。其中，每一种尺度设置三种先验框，尺寸通过聚类得到。最后，给出实验结果对比图：在这里插入图片描述

图4：YOLOv3实验结果对比

0. Abstract

作者将 ${\rm YOLOv3}$ 结合大量 ${\rm tricks}$ ，在数据处理、特征提取、网络回归等方面进行改善，得到 ${\rm YOLOv4}$ 。实验结果为在 ${\rm MS\ COCO}$ 数据集上的 ${\rm AP}$ 为 ${\rm 43.5\%}$ ， ${\rm FPS}$ 为 ${\rm ～65(Tesla\ V100)}$ 。
论文贡献：（一）提出一个高性能的检测器，可以在 ${\rm 1080Ti}$ 或 ${\rm 2080Ti}$ 上训练该模型；（2）实验验证了大量针对目标检测的 ${\rm tricks}$ 的有效性；（3）改善优化方法，使模型更能适应于单 ${\rm GPU}$ 训练。

1. Introduction

${\rm YOLOv4}$ 的实验结果对比：
在这里插入图片描述

图5：YOLOv4实验结果对比

2. Related Work

由于论文涉及大量 ${\rm tricks}$ ，本文在相关工作部分列举出论文中使用的相关方法，而作者的实验都是基于这些方法的，具体可查阅相关论文。

2.1 Object Detection Models

目标检测方法有以下分类：

在 ${\rm GPU}$ 上运行的模型，该类模型的 ${\rm backbone}$ 包括 ${\rm VGG}$ 、 ${\rm ResNet}$ 、 ${\rm ResNeXt}$ 、 ${\rm DenseNet}$ 等；
在 ${\rm CPU}$ 上运行的模型，该类模型的 ${\rm backbone}$ 包括 ${\rm SqueezeNet}$ 、 ${\rm MobileNet}$ 、 ${\rm ShuffleNet}$ 等；
两阶段检测方法，包括 ${\rm RCNN}$ 系列、 ${\rm R–FCN}$ 、 ${\rm Libra\ R–CNN}$ 等；
一阶段检测方法，包括 ${\rm YOLO}$ 系列、 ${\rm SSD}$ 、 ${\rm RetinaNet}$ 等；
两阶段无框检测方法，包括 ${\rm RepPoints}$ 等；
一阶段无框检测方法，包括 ${\rm CenterNet}$ 、 ${\rm CornerNet}$ 、 ${\rm FCOS}$ 等；
模型的颈（ ${\rm neck}$ ）包括 ${\rm FPN}$ 、 ${\rm PAN}$ 、 ${\rm BiPAN}$ 、 ${\rm NAS–FPN}$ 等；

其他包括 ${\rm DetNet}$ 、 ${\rm DetNAS}$ 、 ${\rm SpineNet}$ 、 ${\rm HitDetector}$ 等。

2.2 Bag of Freebies

目标检测模型通常以离线的方式训练（针对整体数据集进行训练，即先使用全部数据集训练模型，再使用模型；相对比的是在线训练，即边训练边使用模型的实时训练方式），研究者通常致力于设计更有效的训练方法，对于目标检测常用的是数据增强( ${\rm Data\ Augmentation}$ )。数据增强的目的是增加输入图像的多样性，以增强模型针对不同场景的鲁棒性。
首先，常用的数据增强方法包括亮度变化（亮度、对比度、明度、饱和度、噪声等）、几何变换（缩放、裁剪、旋转等）。上述方法都是像素级调整，调整后原始像素的信息得以保留。此外还有其他种类方法：随机擦除和 ${\rm CutOut}$ 等随机地将图像中的矩形区域用随机或特定像素值填充； ${\rm MixUp}$ 和 ${\rm CutMix}$ 等同时使用融合多幅图像进行增强；将 ${\rm GAN}$ 的方法应于图像增强等。
其次，不同于上述方法，还有通过增强数据集的语义信息的方法，这类方法往往解决的是样本不平衡问题。难例负样本挖掘和 ${\rm OHEM}$ 是两阶段检测方法中常用的方法，以及在一阶段检测方法中常使用的 ${\rm Focal\ Loss}$ 。此外，还有 ${\rm Label\ Smoothing}$ 用于提高模型鲁棒性、使用知识蒸馏设计标签精细化网络等。
最后是关于回归网络的目标函数设计。传统使用的是均方根误差（ ${\rm MSE}$ ），它直接对边界框的中心点以及宽、高或左上角顶点及右下角顶点回归。但这类方法仅独立地关注边界框属性，没有利用其整体信息。为了解决上述问题，又出现了 ${\rm IoU\ Loss}$ ，以及 ${\rm GIoU}$ 、 ${\rm DIoU}$ 、 ${\rm CIoU}$ 等改进。

2.3 Bag of Specials

目标检测模型中通常采用特定的模块以增大感受野、引入注意力机制、增强特征融合等，以及某些后处理手段是筛选模型的有效方法。首先，常用的用于增大感受野的方法有 ${\rm SPP}$ 、 ${\rm ASPP}$ 、 ${\rm RFB}$ 。其次，目标检测中常用到的注意力模块是通道注意力和点注意力，二者的代表分别是 ${\rm SE}$ 和 ${\rm SAM}$ 。最后，对于特征融合模块，常用到的有 ${\rm SFAM}$ 、 ${\rm ASFF}$ 、 ${\rm BiFPN}$ 等。
此外，还有许多关于对激活函数的研究， ${\rm ReLU}$ 是常用的激活函数，及对它的改进有 ${\rm LReLU}$ 、 ${\rm PReLU}$ 、 ${\rm ReLU6}$ 、 ${\rm SELU}$ 、 ${\rm Swish}$ 、 ${\rm hard–Swish}$ 等。
常用的后处理模块是 ${\rm NMS}$ ，它的作用是过滤掉某些高置信度的错误预测结果，及对它的改进有 ${\rm soft–}$ ${\rm NMS}$ 、 ${\rm DIOU\ NMS}$ 等。

3. Methodolody

3.1 Selection of Architecture

作者在设计网络结构时的原则是尽量平衡输入图像分辨率、卷积层数、模型参数、卷积核数。作者通过大量实验对比，最后选择 ${\rm CSPDarkNet53}$ 作为模型的特征提取网络（ ${\rm CSPDarkNet53}$ 源自 ${\rm CSPNet}$ 和 ${\rm DarkNet53}$ ）。下图展示了几种模型的参数对比：在这里插入图片描述

图6：几种模型的参数对比

此外， ${\rm YOLOv4}$ 使用 ${\rm SPP}$ 模块以增大感受野、使用 ${\rm PANet}$ 作为特征融合模块，以及使用 ${\rm YOLOv3}$ 的检测头。

3.2 Selection of BoF and BoS

本部分对应于上述 $(2.2)$ 和 $(2.3)$ 部分。

3.3 Additional Improvements

为了使得模型可以更适用于在单 ${\rm GPU}$ 上训练，作者对模型进行如下改善：

提出新的数据增强方法，包括 ${\rm Mosaic}$ 和自对抗训练（ ${\rm Self\ Adversarial\ Training,SAT}$ ）；
使用遗传算法的同时使用最佳超参数；
对 ${\rm SAM}$ 、 ${\rm PAN}$ 和 ${\rm BN}$ 改进。

${\rm Mosaic}$ 的思路是将 $4$ 张图像融合，这就使得结果包含 $4$ 种不同的上下文信息（如图 $7$ ）。自对抗训练是一在这里插入图片描述

图7：Mosaic

种新的数据增强方法。在前向传播过程中，模型改变输入图像而非权重以使得网络进行自抗性攻击。在反向传播过程中，模型针对对抗样本进行训练。
${\rm CmBN}$ 是对 ${\rm BN}$ 的改进，它仅收集单个批次中小批数据间的信息，如下图：在这里插入图片描述

图8：CmBN

论文将 ${\rm SAM}$ 中的空间注意力替换为点注意力；将 ${\rm PAN}$ 中的特征融合方式由相加改为拼接。

3.4 YOLOv4

最后，总结一下 ${\rm YOLOv4}$ 的各个部分： ${\rm YOLOv4}$ 由 ${\rm CSPDarkNet53}$ （ ${\rm Backbone}$ ）、 ${\rm SPP,PAN}$ （ ${\rm Neck}$ ）、 ${\rm YOLOv3}$ （ ${\rm Head}$ ）组成，用到的 ${\rm tricks}$ 包括：

对于 ${\rm backbone}$ 的 ${\rm BoF}$ ： ${\rm CutMix}$ 和 ${\rm Mosaic}$ 数据增强方法、 ${\rm DropBlock}$ 正则化、 ${\rm Label\ Smoothing}$ ；
对于 ${\rm backbone}$ 的 ${\rm BoS}$ ： ${\rm Mish}$ 激活函数、 ${\rm CSP}$ 、多输入加权残差连接（ ${\rm MiWRC}$ ）;
对于 ${\rm detector}$ 的 ${\rm BoF}$ ： ${\rm CIoU}$ 、 ${\rm CmBN}$ 、 ${\rm DropBlock}$ 正则化、 ${\rm Mosaic}$ 数据增强方法、自对抗训练、消除网络敏感性、多个 ${\rm anchor}$ 匹配一个标注框、余弦退火策略、最佳超参数、训练时随机尺寸；
对于 ${\rm detector}$ 的 ${\rm BoS}$ ： ${\rm Mish}$ 激活函数、 ${\rm SPP}$ 模块、 ${\rm SAM}$ 模块、 ${\rm PAN}$ 模块、 ${\rm DIoU–NMS}$ 模块。

4. Experiments

这里直接给出各目标检测模型的实验结果对比：在这里插入图片描述

图9：目标检测模型实验结果对比

5. Conclusion

论文提出的 ${\rm YOLOv4}$ 在所有一阶段检测算法上表现 ${\rm SOTA}$ ，其通过综合各种有效的模块、加上合适的训练方法，得到一个高性能模型。此外， ${\rm YOLOv4}$ 可以在很多单 ${\rm GPU}$ 上训练，这表明模型的优化方面还是做得挺好的。
虽然 ${\rm YOLOv4}$ 的精度和速度表现较好，但模型综合了大量的 ${\rm tricks}$ ，可以预见到模型在训练过程中的收敛情况不如 ${\rm YOLOv3}$ 。此外，相比较于 ${\rm YOLOv3}$ ， ${\rm YOLOv4}$ 的模型更加复杂、训练元素更加繁多，这导致很多人不会将 ${\rm YOLOv4}$ 作为首选方案。构建一个结构简单、性能高效、训练方便的模型才是人们所追捧的， ${\rm YOLOv3}$ 和 ${\rm SSD}$ 在实际应用中的表现就印证了这一点。最后文中涉及大量论文的思想，具体某项技术的思想和实现可参考相应论文。

由于没有阅读源码，本文只总结了 ${\rm YOLOv4}$ 的大体结构和信息，详细内容请阅读论文原文。

参考

Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. arXiv preprint arXiv:2004.10934, 2020.

完

（十七）论文阅读 | 目标检测之YOLOv4

简介