深度NN仅仅是作为特征提取器:
人体姿态特征提取OpenPose
OpenPose 的多人人体姿态估计的模型结构如图:
网络输入为 hxwx3 的图片,并输出包含关键点(Keypoints)的置信图(confidence maps) 和每个关键点对(keypoint pair) 的 Part Affinity Heatmaps 的两个输出数组.
Stage 0:
采用 VGGNet 的前 10 层,提取输入图片的特征图(feature maps).
Stage 1:
采用 2-分支的 multi-stage CNN 网络结构:
1 分支1 -- 网络分支一预测人体关键点位置的 2D Confidence Maps ,如 elbow, knee, etc.
2 分支 -- 网络分支二预测 Part Affinities (PAF) 的2D 向量场(L, vector fields),其表示了两个关键点之间关联度(degree of association).