原文:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
代码:ZheC/Realtime_Multi-Person_Pose_Estimation
Abstract
文章提出了一种高效的检测2D多人姿态的方法。文章提出了一种Part Affinity Fields (PAFs)的方法来联系不同个体之间的关节。该体系结构编码来全局上下文,允许贪婪的bottom-up的解析步骤,该步骤在实现实时性能的同时保持高精度,而与图像中的人的数量无关。该体系结构被设计为通过同一顺序预测过程的两个分支来联合学习关节点的位置及关节点之间的关联。方法在首届COCO 2016关键点挑战赛中排名第一,在性能和效率上都大大超过了之前MPII多人基准测试的SOTA结果。
Introduction
略
Method
Figure 2. 展示了文章方法的整个pipeline。文章输入一张彩色的
w×h 的图像,输出图像中每个人的2D关节点。
一个前向网络同时预测出一系列的身体部位的2D置信图
S ,和一系列part affinities的2D 向量场
L,
L 编码了两个部位之间的连接角度。
S=(S1,S2,...,SJ) 有
J 张置信图,
Sj∈Rw×h, 一个关节点一副图。
L=(L1,L2,...,LJ)有
J 个向量场,
Lj∈Rw×h×2,
L中的每个位置都编码了一个2D vector。
最后,置信度图
S 和affinity fields
L 共同来解析出图中所有人的2D关键点。
Simultaneous Detection and Association
略
Confidence Maps for Part Detection
略
Part Affinity Fields for Part Association
给定一个关键点的集合,我们如何把他们组装成位置人体个数的完整姿态呢?我们需要一个置信量来度量关节点集合中每一对节点之间的关联度。
文章提出了一种特征表达 part affinity fields,同时保留了肢体区域内的位置和方向信息。对于每个关节点的part affinity 都是一个2D的向量场。在指定肢体的区域内的每一个像素,都有一个从肢体的一个部位指向另一个部位的方向,每个肢体都有对于的PAF来连接其对应的相关联的身体部位。
对于图中的单个肢体而言,假设
xj1,k and
xj2,k 是第
k 个人的第
c 个肢体的所连接的身体部位
j1 和
j2 的GT位置。对于肢体上的某点
p,
Lc,k(p) 是从
j1 到
j2 的单位向量,其他点的值为0.
具体定义为:
Lc,k(p)={v, if p on lim bc,k0,otherwise
其中
v=(xj2,k−xj1,k)/∣∣xj2,k−xj1,k∣∣2
即从
xj1,k 到
xj1,k 的单位向量。
对于肢体的区域范围的确定,是以连接线为中心线,左右各宽为
σl 的矩形位置。
具体定义为:
0≤v⋅(p−xj1,k)≤lc,k and ∣v⊥⋅(p−xj1,k)∣≤σl,
其中
v⊥是
v的垂直向量,
lc,k=∣∣xj2,k−xj1,k∣∣2。
对于最终的 part affinity field 的GT,取每个人的part affinity field的均值:
Lc(p)=nc(p)1k∑Lc,k(p)
在测试阶段,我们用两个关节点连线上的PAF积分来表示两个关节点之间的关联度。具体地,对于两个候选部位的位置
dj1 和
dj2,两关节点之间的关联度为:
E=∫u=0u=0Lc(p(u))⋅∥dj2−dj1∥2dj2−dj1du
其中
p(u) 表示
dj1 和
dj2之间的位置:
p(u)=(1−u)dj1+udj2
在得到所有关节点之间的关联度之后,我们构建了一系列的二分图,用 Hungarian algorithm 来选取每个二分图之间的最佳连接。在确保每个关节点只有一个连接的情况下,求去总关联置信度最高的连接方式。