MTCNN 论文学习

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Network

Abstract
1. Introduction
2. Approach

A. Overall Framework
B. CNN Architecture
C. Training

3. Experiments

论文地址：https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdf

Abstract

在无条件约束的环境下进行人脸检测和对齐是非常具挑战性的，因为你要考虑不同的姿势，光照，和遮挡。最近的研究显示，深度学习方法能在这两个任务上获得不错的效果。这篇论文提出了一个深度级联多任务框架，探索它们内在的关系，进而提升表现。此框架采取了一个级联架构，包含三个阶段的深度卷积网络由粗到细地来预测人脸和特征点位置。此外，在学习过程中，我们提出一个新的 online hard example mining 策略，可以自动提升表现，而不需人工选取样本。此方法在人脸检测的 FDDB 和WIDER FACE benchmarks 上获得了 state of art 的成绩，在人脸对齐的 AFLW benchmark 上也表现不俗。

1. Introduction

人脸检测和对齐对于人脸应用至关重要，如人脸识别和表情分析。但是，面部在视觉呈现上的差异，如遮挡，姿势变化，和极端光照，给现实世界中的人脸应用带来了巨大的挑战。

Viola 与 Jones 提出了一个级联人脸检测器，它利用 Haar 特征和 AdaBoost 来训练一个级联分类器，获得了不错的表现。但是一些实验表明这个检测器在实际应用中效果会下降很多，当人脸的视觉变化很大时。另有一些论文介绍了 deformable part models (DPM) 用于人脸检测，表现优异。但是它们都需要很高的算力，而且在训练阶段需要很多的标注数据。Yang et al. 提出了用于人脸属性识别的深度卷积网络，以获取人脸区域的高响应，然后进一步产生人脸候选框。但是，由于 CNN 结构复杂，在实际应用中很费时。Li et al. 利用级联 CNNs 来识别人脸，但是需要候选框校准，这带来了额外的计算成本，而且忽略了人脸关键点位置和边框回归中的内在关联。

人脸对齐也受到了很大的关注。基于回归的模型与 template fitting approaches 是两个主要的方向。最近，Zhang et al. 提出利用人脸属性识别作为辅助，使用 CNN 来增强人脸对齐表现的方法。

但是，绝大多数的人脸检测和对齐方法都忽略了这两个任务之间的内在联系。尽管有些工作试图去共同解决这俩问题，但是效果有限。例如，Chen et al. 利用随机森林和像素值差异，来共同进行对齐和检测任务。但是，人为选取的特征限制了它的效果。Zhang et al. 使用多任务 CNN 来提升 multi-view 的人脸检测准确率，但是初始检测窗口是由一个弱人脸检测器产生，因而检测精度有限。

另一方面，训练过程中的 mining hard samples 对增强检测器的效果至关重要。但是传统的 hard sample mining 通常是 offline 的方式操作，这就需要更多的人为操作。所以，针对人脸检测和对齐设计一个 online hard sample mining 方法就变得非常迫切，它能自动地适应当前训练过程。

这篇论文中，我们提出了一个新的框架，利用级联 CNNs 整合检测和对齐的任务。它主要包含3个阶段。第一阶段，快速地通过一个较浅的 CNN 来产生候选窗口。然后，通过一个复杂点的 CNN 来优化候选窗口，剔除那些不包含人脸的窗口。最终，使用一个更复杂的 CNN 来优化结果，输出人脸关键点位置。该多任务学习框架能显著地提升了算法的表现。这篇论文的主要贡献如下：

提出了一个新的级联 CNNs 框架，共同进行人脸检测和对齐；
提出了一个高效的方法来进行 online hard sample mining 来提升表现；
在 benchmarks 上进行充分的实验，与目前 state of art 的方法进行比较。

2. Approach

A. Overall Framework

我们的方法流程如图1中所示。给定一张图片，我们首先将它的大小调整为不同的比例，产生图像金字塔，然后将该图像金字塔作为“3-阶段级联框架”的输入：

扫描二维码关注公众号，回复： 5708004 查看本文章

阶段一：我们使用了一个全卷积网络，叫 Proposal Network (P-Net)，来获取候选框，以及它们的边框回归向量。然后用估计的边框回归向量来校准这些候选框。然后，用非最大抑制（non-maximum suppression, NMS）来合并高度重合的候选框。

阶段二：将所有的候选框输入进另一个 CNN，叫 Refine Network (R-Net)，它进一步剔除那些假的候选框，对边框回归进行校准，然后用 NMS 来合并重合的候选框。

阶段三：它与阶段二类似，但是在这一步我们的目的是获得人脸更多的细节。尤其是，网络将输出人脸的关键点位置。

B. CNN Architecture

在论文“A convolutional neural network cascade for face detection” 中，作者设计了多个 CNNs 来进行人脸检测。但是，我们注意到，它的表现受以下几方面限制：（1）一些滤波器缺乏权值的多样性，这限制了它们去产生 discriminative 信息；（2）与其它多类别目标检测和分类任务相比，人脸检测是一个二元分类任务，所以它需要的滤波器数量就比较少，但是这些滤波器的判别能力要强。所以，作者就降低了滤波器的个数，将 $5\times 5$ 的滤波器改为 $3\times 3$ 的滤波器，降低计算量，增加网络深度，这样来提升性能。有了这些改善，我们就能获得更优的检测效果，运行时间更短。

C. Training

我们使用3个任务来训练我们的 CNN 检测器：有人脸/没人脸分类，边框回归，人脸关键点定位。

人脸分类：学习目标就是一个两类别的分类任务。对每个样本 $x_i$ ，我们使用交叉熵损失函数：
$L_i^{det} = -(y_i^{det} log(p_i)) + (1-y_i^{det})(1-log(p_i))\quad \quad \quad (1)$

$p_i$ 是网络输出的，一个样本是否是人脸的概率。 $y_i^{de} \in \{0,1\}$ 表示 ground-truth 标签。

边框回归：对每个候选框，我们预测它和最近的 ground truth 边框（ground truth 边框的左上角位置，高度和宽度）的偏移量。学习目标是一个回归问题，我们对每个样本 $x_i$ 使用欧式损失：
$L_i^{box} = ||\hat y_i^{box} - y_i^{box}||^2_2 \quad \quad \quad (2)$

$\hat y_i^{box}$ 是从网络中获得的回归值，而 $y_i^{box}$ 是ground truth 坐标。有4个坐标，包括左上角位置，高度和宽度，因此 $y_i^{box} \in \mathbb{R}^4$ 。

人脸关键点定位：与边框回归任务类似，人脸关键点检测也被看作一个回归问题，我们最小化欧式损失：
$L_i^{landmark} = ||\hat y_i^{landmark} - y_i^{landmark}||^2_2\quad \quad \quad (3)$

$\hat y_i^{landmark}$ 是人脸关键点的坐标，从网络中计算得来； $y_i^{landmark}$ 是 ground truth 坐标。有5个关键点，包括左眼，右眼，鼻子，左嘴角，和右嘴角，所以 $y_i^{landmark}\in \mathbb{R}^10$ 。

多源训练：因为我们在每个 CNN 里要做不同的任务，就要有不同类别的训练图像，如人脸，没人脸，部分对齐的人脸。这样，前面的一些损失函数就没有使用。例如，对背景区域的样本，我们只计算 $L_i^{det}$ ，其它两个损失函数都设为0。我们只需要一个样本类型表示器就可以做到。这样，整个学习目标如下：
$min \sum_{i=1}^N \sum_{j\in \{det,box,landmark\}} \alpha_j \beta_i^j L_i^j \quad \quad \quad (4)$

$N$ 是训练样本的个数， $\alpha_j$ 表示任务的重要程度。我们在 P-Net 和 R-Net 中使用 $\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=0.5$ ，在 O-Net 中使用 $\alpha_{det}=1, \alpha_{box}=0.5, \alpha_{landmark}=1$ 来更精准地获取人脸关键点位置。 $\beta_i^j \in \{0,1\}$ 是样本类型表示器。这样，我们很自然地就会去选择随机梯度下降法来训练 CNNs。

Online hard example mining：与传统方法的在分类器训练后进行 hard sample mining 不同，我们在人脸分类任务中就进行 online hard example mining，让它自动地适应训练过程。

在每个 mini-batch 中，我们对前向传播中得到的损失值进行排序，选择最高的 $70\%$ 作为 hard samples。然后在反向传播时，我们只计算 hard samples 中的梯度。意思就是，在训练过程中我们忽略容易掉样本，因为它们对提升检测器没有太多帮助。实验表明，这个训练策略能产生更好的表现，而不需要人为的样本选择。

3. Experiments

Pls read paper for more details.