论文笔记：Convolutional Pose Machines

文章目录

1、摘要
2、介绍
3、相关研究
4、方法

4.1、姿态机
4.2、卷积姿态机

4.2.1、使用局部图像线索进行关键点定位
4.2.2、学习空间上下文的序列预测

4.3、卷积姿态机的学习

5、评估

5.1、分析
5.2、数据集和定量分析

6、讨论

1、摘要

姿态机为学习丰富的隐式空间模型提供了序列预测框架。作者展示了一个系统设计，如何将卷积网络结合到姿态机框架中，用于学习图像特征，以及用于姿态估计任务的图像相关空间模型。本文的贡献是隐式建模结构化预测任务中变量之间的远程相关性，例如关节式姿态估计。作者通过设计一个由卷积网络组成的序列结构来实现这一点，卷积网络直接对前几个阶段的置信图进行操作，对部位位置产生越来越精确的估计，而不需要显式的图形模型式推理。该方法通过提供一个自然的学习目标函数来加强中间监督，从而补充反向传播的梯度并调节学习过程，解决了训练过程中梯度消失的难题。该方法展示了最先进的性能，并在标准基准测试(包括 $MPII$ 、 $LSP$ 和 $FLIC$ 数据集)上优于竞争方法。

2、介绍

作者提出卷积姿态机（ $CPM$ ）用于关节姿态估计。卷积姿态机继承了姿态机架构的优势—隐式地学习图像和部位线索之间远程相关性，学习和推理之间的紧密集成、模块化序列设计，并将它们与卷积框架的优势相结合：直接从数据中学习图像和空间上下文的特征表示能力；一个可微分的架构，允许通过反向传播进行全局联合训练；以及高效处理大型训练数据集的能力。

$CPMs$ 由一系列卷积网络组成，这些卷积网络为每个部分的位置重复生成二维置信图。在 $CPM$ 的每个阶段，都使用前一阶段生成的图像特征和置信图作为输入。置信图为后续阶段提供了对每个部位位置空间不确定性的非参数编码，使 $CPM$ 能够学习部位之间关系的丰富的图像相关空间模型。不使用图形模型或专门的后续处理步骤来明确分析这些置信图，而是学习直接在中间置信图上操作的卷积网络，并学习各部位之间关系的隐式图像相关空间模型。所提出的整体多级体系结构是完全可微分的，因此可以使用反向传播以端到端的方式进行训练。

在 $CPM$ 的特定阶段，部分置信的空间语境为后续阶段提供了非常明确的线索。因此， $CPM$ 的每个阶段都会生成置信图，并对每个部位的位置进行越来越精确的估计（见图 $1$ ）。为了捕捉各部位之间的远程交互，后续预测框架的每个阶段的网络设计都是为了在图像和置信图上实现一个大的感受野。作者发现，在置信图上实现大的感受野对学习远程空间关系很重要，并且能够提升精度。

多层卷积网络组成 $CPM$ ，在学习过程中可能面临梯度消失的问题。出现这个问题是因为反向传播的梯度强度通过网络的许多层后会降低。虽然有研究表明，在中间层监督非常深的网络有助于学习，但它们大多局限于分类问题。在这项工作中，作者展示了对于一个结构化的预测问题，例如姿态估计， $CPM$ 自然地提出了一个系统的框架，它补充了梯度，并通过在网络中周期性地加强中间监督来引导网络产生越来越精确的置信图。作者还讨论了这种序列预测结构的不同训练方案。

本文的主要贡献：

通过卷积框架序列学习隐式空间模型
一种系统的方法，用于设计和训练这样的体系结构，以便在结构化预测任务中学习图像特征和图像相关的空间模型，而不需要任何图形模型样式的推理。

3、相关研究

关节式姿态估计的经典方法是图像结构模型，其中身体各部分之间的空间相关性表示为一个树形结构的图模型，运动学先验将相连的肢体耦合。这些方法在人的所有肢体都可见的图像上是成功的，但是容易出现特征误差，例如重复计数图像证据，这是因为树结构模型没有捕捉到变量之间的相关性。 $Kiefel$ 等人的研究基于图像结构模型，但在底层图形表示上有所不同。分层模型表示分层树结构中不同比例和大小的部位之间的关系。这些模型的基本假设是，较大的部位（对应于完整的肢体而不是关节）通常可以具有易区分的图像结构，这种图像结构更容易检测，因此有助于推断较小、较难检测的部位的位置。非树模型结合了引入环的交互作用，以捕捉对称、遮挡和远程关系的附加边来增强树结构。这些方法通常在学习和测试时都必须依赖近似推理，因此必须在空间关系的精确建模和允许有效推理的模型之间进行权衡，通常使用简单的参数形式来进行快速推理。相反，基于序列预测框架的方法通过直接训练推理过程来学习变量之间存在潜在复杂交互的隐含空间模型。

人们对采用卷积结构进行关节姿态估计的模型越来越感兴趣。 $Toshev$ 等人采用使用标准卷积架构直接回归笛卡尔坐标的方法。最近的研究将图像回归到置信图，并借助于图形模型，这需要手动设计能量函数或空间概率先验的启发式初始化，以去除回归置信图上的异常值。其中一些还利用专用网络模块实现精度精炼。在本研究中，作者展示了回归的置信图适用于输入到具有大感受野的更深的卷积网络中，以学习隐式空间相关性，而无需使用手动设计先验，并且无需细致的初始化和专门的精度精炼，就能在所有精度区域实现最先进的性能。 $Pfister$ 等人还使用了具有大感受野的网络模块来捕捉隐含的空间模型。由于卷积的可微性，本文的模型可以进行全局训练。

$Carreira$ 等人训练深度网络，该网络使用误差反馈迭代地改进部位检测，与 [40] 中的做法相同，使用笛卡尔表示，由于不保持空间不确定性，导致较低的精度。在这项研究中，作者展示了序列预测框架如何利用置信图中保留的不确定性来编码丰富的空间上下文，同时加强中间局部监督来解决梯度消失的问题。

4、方法

4.1、姿态机

作者把第 $p$ 个身体部位的像素位置表示为 $Y_p∈Z⊂R^2$ ，其中 $Z$ 是图像中所有位置的集合。目标是预测所有 $P$ 个部位在图像中的位置 $Y=(Y_1 ..., Y_P )$ 。姿态机（见图 $2a$ 和 $2b$ ）由一系列多类预测器 $g_t()$ 组成，这些预测器被训练来预测层次结构的每一层中每个部位的位置。在 $t\in\{ 1...T\}$ 的每个阶段中，分类器 $g_t$ 基于从位置 $z$ 处提取的图像特征 $x_z\in \mathbb R^d$ 和来自 $t$ 阶段中每个 $Y_p$ 附近的前一分类器的上下文信息，预测每个部位 $Y_p=z,∀z ∈Z$ 的置信度。因此，第一阶段 $t=1$ 中的分类器产生以下置信值：
$g_1(x_z)\rightarrow\{b_1^p(Y_p=z)\}_{p\in\{0...P\}}\tag1$

$b_1^p(Y_p=z)$ 表示分类器 $g1$ 在第一阶段将第 $p$ 个部位在图像中的位置确定为 $z$ 的置信度。作者将部位 $p$ 在图像中每个位置 $z=(u,v)^T$ 的置信度表示为 $b_t^p\in\mathbb R^{w\times h}$ ，其中 $w$ 和 $h$ 分别表示图像的宽度和高度。
$b_t^p[u,v]=b_t^p(Y_p=z)\tag2$
为了简便，作者将所有部位的置信图表示为 $b_t\in \mathbb R^{w\times h\times (P+1)}$ （其中 $P$ 个部位一个背景）。

在随后的阶段，分类器基于（ $1$ ）图像数据 $x^t_z∈\mathbb R^d$ 的特征，以及（ $2$ ）来自每个 $Y_p$ 邻域中先前分类器的上下文信息，为每个部位 $Y_p=z，∀z∈ Z$ 预测置信度。
$g_t(x'_z,\psi_t(z,b_{t-1}))\rightarrow\{b_t^p(Y_p=z)\}_{p\in\{0...P+1\}}\tag3$
其中， $\psi_{t>1}$ 是从 $b_{t-1}$ 到上下文特征的一个映射。在每个阶段，置信度都会增加每个部位位置估计的精度。注意，允许后续阶段的图像特征 $x'_z$ 不同于第一阶段中使用的图像特征 $x$ 。[29] 所提出的姿态机使用了增强随机森林用于预测（ $\{gt\}$ ）、跨所有阶段的固定手工图像特征（ $x'=x$ ）和固定手工上下文特征图（ $\psi_t$ ）用于捕捉所有阶段的空间上下文。

4.2、卷积姿态机

姿态机的预测模块和图像特征计算模块可以由深度卷积框架取代，图像和上下文特征的表示都可以直接从数据中学习得到。卷积框架有完全可微的优势，因此能够卷积姿态机能够进行端到端的训练。卷积姿态机结合了深度卷积框架和姿态机隐含空间模型的优势。

4.2.1、使用局部图像线索进行关键点定位

卷积姿态机的第一阶段仅从局部图像信息预测部位置信度。使用一个深度卷积神经网络从局部图像信息中检测部位位置。信息是局部的是因为网络第一阶段的感受野局限在输出像素位置周围的一小块。该网络由 $5$ 个卷积层连接两个 $1\times1$ 卷积层组成，因此是一个全卷积结构。实际上，为了实现确定的精度，作者将输入图像裁剪到 $368\times368$ 像素大小，网络的感受野为 $160\times160$ 。该网络可以有效地被视为在图像上滑动深层网络，并从每个 $160×160$ 图像块中的局部图像信息回归到代表该图像位置处每个部位置信度的大小为 $P+1$ 的输出向量。

4.2.2、学习空间上下文的序列预测

虽然对具有一致外观的标记（例如头部和肩部）的检测率可能是有利的，但是对于位于人体骨骼运动链下方的标记，由于它们在结构和外观上的巨大差异，其准确度通常要低得多。一个部位位置周围的置信图，尽管很嘈杂，但是可以提供很多信息。如图 $3$ 所示，当检测到像右肘这样具有挑战性的部位时，右肩的置信图有一个陡峭的峰值可以提供强烈的线索。之后阶段（ $g_{t>1}$ ）的预测器可以使用图像位置 $z$ 附近区域的噪声置信图的空间上下文（ $\psi_{t>1}$ ）并利用部位外观几何结构一致的事实来改进其预测。在姿态机的第二阶段，分类器 $g_2$ 接受图像特征 $x_z^2$ 和通过特征函数 $ψ$ 为每个部位根据前一阶段的置信度计算的特征作为输入。特征函数 $ψ$ 用于在不同部位的位置 $z$ 周围的空间区域中编码来自前一阶段的置信图。对于卷积姿态机，没有计算上下文特征的显式函数。相反，作者将 $ψ$ 看作是预测器在前一阶段置信图上的感受野。

通过在第二级网络的输出层获得足够大的感受野来指导网络的设计，该感受野允许学习部位之间潜在的复杂性和远程的相关性。通过简单地在前一阶段的输出上提供特征（与在图模型中指定潜在函数相反），后一阶段的卷积层允许分类器通过选择最具预测性的特征来自由地组合上下文信息。第一阶段的置信图是由一个网络生成的，该网络用一个小的感受野局部地检查图像。在第二阶段，设计了一个大幅增加感受野的网络。通过以牺牲精度为代价进行池化，以增加参数数量为代价增加卷积核大小，或者以训练过程中遇到梯度消失的风险增加卷积层的数量，都可以获得较大的感受野。网络设计和后续阶段（ $t≥2$ ）的相应感受野如图 $2d$ 所示。作者选择使用多个卷积层来在 $8×$ 缩小的热图上获得大的感受野，因为它允许对模型的参数数量进行精简。作者发现，即使在高精度区域， $8$ 步长网络的性能也和 $4$ 步长网络一样好，同时它使我们更容易获得更大的感受野。遵循姿态机的结构，作者还对图像特征图重复类似的结构，以使空间上下文依赖于图像并允许误差校正。

作者发现，随着感受野的增加，精度得到提升。在图 $4$ 中，通过对标准化为 $304×304$ 大小的输入图像进行一系列实验，显示了 $FLIC$ 数据集上精度的提高，因为原始图像的感受野大小是通过改变架构而变化的，而参数的数量没有显著变化。作者发现，精度随着感受野的增大而增加，在增加到大约 $250$ 像素时达到饱和，标准化后的目标大小也大约是这个值。这表明了网络确实编码了不同部位的远程交互，而且这也确实是有利的。依据图 $2$ 最佳设置，作者将输入图像标准化为 $368\times368$ 像素大小以求获得更高的精度，而且第二阶段输出在第一阶段输出的置信图上的感受野设置为 $31\times31$ ，相当于原图的 $400\times400$ 像素大小，这一半径能够覆盖任何一组人体部位。随着阶段越来越多，有效感受野就越来越大。在下一节中，作者将展示多达 $6$ 个阶段的结果。

4.3、卷积姿态机的学习

以上姿态机设计的描述需要一个多层网络组成的深度架构。训练这样一个多层网络很容易出现梯度消失的问题，反向传播梯度的大小随着中间层数量的增加而减小。

姿态机的序列预测框架提供了一种自然的方法来训练深层结构来解决这个问题。姿态机的每个阶段都被训练为重复地为每个部位的位置产生置信图。在每一阶段 $t$ 的输出端定义一个损失函数，通过最小化每一部位的预测和理想置信图之间的 $l_2$ 距离使网络重复生成这样的表示。部位 $p$ 的理想置信图表示为 $b_*^p(Y_p=z)$ 是通过将高斯峰值放置在每个身体部位 $p$ 的 $ground~truth$ 位置而产生的。每一阶段目标最小化的成本函数如下所示：
$f_t=\sum\limits_{p=1}^{P+1}\sum\limits_{z\in Z}||b_t^p(z)-b_*^p(z)||_2^2\tag4$
整个体系结构的总体目标是通过将每个阶段的损失相加而获得的，其计算公式如下：
$\mathcal F=\sum\limits_{t=1}^Tf_t\tag5$
作者使用标准随机梯度下降的方法训练网络。为了在所有后续阶段共享图像特征 $x'$ ，作者在 $t ≥ 2$ 阶段共享相应卷积层的权重（见图 $2$ ）。

5、评估

5.1、分析

处理梯度消失 等式 $5$ 中的目标描述了在网络不同部分运行的可分解损失函数（见图 $2$ ）。具体而言，在每个阶段 $t$ 之后，求和中的每一项都应用于网络，从而通过网络在中间阶段有效地实施监督。中间监督的优点是，即使整个体系结构可以有许多层，它也不会成为消失梯度问题的牺牲品，因为中间损失函数会在每个阶段补充梯度。

作者通过观察在有无中间监督的条件下，体系结构中不同深度梯度幅度直方图（见图 $5$ ）来验证这一说法，这些直方图跨越了模型的训练阶段。在早期阶段，当从输出层移动到输入层时，在没有中间监督的情况下在模型上观察到，梯度分布由于梯度消失而紧紧地在零附近达到峰值。有中间监督的模型在所有层上的梯度变化更大，表明由于中间监督的作用，学习发生在所有层上。作者还注意到，随着训练的进行，梯度幅度分布的方差随着模型收敛而减小。

端到端训练的好处 在图 $6a$ 中看到，用适当设计的卷积体系结构替换姿态机的模块，在高精度模式（ $[email protected]$ ）下比先前方法大幅度提高了 $42.4$ 个百分点，在低精度模式（ $[email protected]$ ）下提高了 $30.9$ 个百分点。

训练方案的比较 作者在图 $6b$ 中比较了不同训练网络的变体，使用 $person-centric (PC)$ 注释的 $LSP$ 数据集。为了展示跨阶段联合训练的中间监管的好处，作者以四种方式对模型进行了训练：

使用实施中间监督的全局损失函数从头开始训练
分阶段；其中每个阶段以前馈方式训练并堆叠
以 $1$ 的方式训练，以 $2$ 的权重进行初始化
以 $1$ 的方式训练，但是没有中间监督

作者发现 $1$ 的性能优于其他训练方式，说明中间监督和全阶段联合训练对实现好的性能至关重要。 $2$ 中的阶段式训练在次优时饱和， $3$ 中的联合微调从次优提高到接近 $1$ 的精度水平，但是训练迭代更长。

跨阶段性能 在图 $6c$ 中，作者展示了在数据集 $LSP(PC)$ 上跨阶段性能。结果表明，性能单调增加，直到 $5$ 个阶段，因为后续阶段的预测器利用前一阶段置信图上大感受野的上下文信息来解决部位和背景之间的混淆。在第六阶段发生性能下降，这是本文为 $LSP$ 和 $MPII$ 数据集报告最佳结果时选择的数字。

5.2、数据集和定量分析

在本节中，将介绍各种标准基准的数值结果，包括 $MPII$ 、 $LSP$ 和 $FLIC$ 数据集。为了使 $368×368$ 的归一化输入样本用于训练，首先调整图像的大小，使样本大致处于相同的比例，然后根据数据集提供的中心位置和粗略比例（如果可用）裁剪或填充图像。在没有这些信息的数据集如 $LSP$ 中，根据关节位置或图像大小来估计它们。对于测试，执行类似的大小调整和裁剪（或填充），但是在必要时仅根据图像大小来估计中心位置和比例。此外，合并不同比例（在给定比例附近扰动）的置信图用于最终预测，以处理给定比例估计的不准确性。

MPII 人体姿态数据集 图 $8$ 展示了在 $MPII$ 数据集上的结果。该数据集有超过 $28000$ 个训练样本。选择通过旋转 $[-40\degree,40\degree]$ ，缩放 $[0.7,1.3]$ 倍，以及水平翻转来随机增加数据。基于 $PCKh$ 准则进行评估，其中误差容限相对于目标的头部尺寸进行标准化。因为在感兴趣的人附近通常有多个人（数据集中给出了大致的中心位置），所以制作了两组理想的训练置信图：一组包括出现在主体附近的每个人的所有峰值，另一组仅放置主体的峰值。在第一阶段向损失层提供第一组置信图，因为初始阶段仅依靠局部图像信息进行预测。将第二类的置信图提供给所有后续阶段的损失层。作者还发现，向所有后续阶段提供一个附加的带有高斯峰值，指示主体中心的热图是有益的。

本文的 $PCKh-0.5$ 总得分达到了 $87.95\%$ （添加 $LSP$ 训练数据时为 $88.52 \%$ ），比最接近的竞争对手高 $6.11\%$ ，值得注意的是，在脚踝（最具挑战性的部分），本文的 $PCKh-0.5$ 得分为 $78.28\%$ （添加 $LSP$ 训练数据时为 $79.41\%$ ），比最接近的竞争对手高 $10.76\%$ 。这个结果显示了本文的模型捕捉长距离上下文的能力，假设脚踝是离头部和其他更容易识别的部位最远的部位。图 $11$ 显示，在 [1] 中定义的各种视角下，本文的精度也始终明显高于其他方法，尤其是在那些具有挑战性的非正面视角下。总之，本文的方法提高了所有部位、所有精度、所有视角的精度，并且是第一个在没有任何来自其他数据的预训练，没有使用手工设计的先验进行后推理解析，或者没有初始化这种结构化预测任务的情况下实现如此高精度的方法。本文的方法也不需要像 [38] 中那样专门针对位置限制的另一个模块，通过 $8$ 步长网络实现高精度。

$Leeds$ 运动姿态（ $LSP$ ）数据集 作者在扩展 $LSP$ 数据集上评估本文的方法，该数据集由 $11000$ 张训练图像和 $1000$ 张测试图像组成。在 $person-centric (PC)$ 的注释下训练，并使用==正确关键点百分比（PCK）==指标评估了本文的方法。使用与 $MPII$ 数据集相同的数据扩充方案，本文的模型再次实现 $84.32\%$ 的精度（当增加 $MPII$ 训练数据时为 $90.5\%$ ）。注意，增加 $MPII$ 数据极大地提升了性能，是因为它的标注质量远优于 $LSP$ 数据集， $Pishchulin$ 等人 [28] 用原始高分辨率图像和更好的标注质量重建数据集。

$FLIC$ 数据集 $FLIC$ 数据集有 $3987$ 张训练图像以及 $1016$ 张测试图像。作者根据 $Sapp$ 等人 [32] 介绍的指标公布准确性。图 $12$ 中公布了肘关节和腕关节的结果。同样，本模型在 $[email protected]$ 标准下的表现优于所有现有技术，肘部为 $97.59\%$ ，手腕为 $95.03\%$ 。在精度更高的区域，本方法的优势更为显著：在 $[email protected]$ 标准下，手腕和肘部分别为 $14.8\%$ 和 $12.7\%$ ，在 $[email protected]$ 标准下，手腕和肘部分别为 $8.9\%$ 和 $9.3\%$ 。

6、讨论

卷积姿态机提供了一种端到端的体系结构，用于解决计算机视觉中的结构化预测问题，而不需要图模型风格的推理。由卷积网络组成的序列结构能够通过在阶段之间传递越来越多的保留不确定性的置信度，隐式地学习姿态的空间模型。变量之间的空间相关性问题出现在计算机视觉的多个领域，例如语义图像标记、单图像深度预测和目标检测，未来的工作将涉及将本文的体系结构扩展到这些问题。本文的方法在所有主要基准上都达到了最先进的精度，但是也存在故障情况，主要是在多人非常接近的情况下。在单个端到端架构中处理多人姿态估计也是一个具有挑战性的问题。