0. 前言
- 相关资料:
- 论文基本信息
- 领域:姿态估计
- 作者单位:密歇根大学
- 发表时间:ECCV 2016
- 一句话总结:提出了沙漏(hourglass)式的backbone。
1. 要解决什么问题
- 当时对卷积神经网络在姿态估计中的研究还不充分,还在探索各类新的结果来处理姿态估计问题。
- 姿态估计的最终目标,是确定各个关键点在原始图像的哪个像素中,所以肯定是downsample再到upsample的过程。
2. 用了什么方法
-
hourglass的设计灵感来源于——需要提取所有尺寸的信息。
-
Hourglass的总体结构如下图所示
- 即特征图尺寸不停地缩小、增加、缩小、增加。
-
对于每一个沙漏,其结构如下
-
论文中有张图这里放下
- 每个沙漏中的每个方框的结构对应左图。
- 右图介绍了Intermediate Supervision。
- 怎么翻译,中间监督?怪怪的。
- 意思就是,网络是由多个hourglass组成的,每个hourglass都要输出一次预测结果(即关键点热力图,下图中蓝色的框),并计算损失函数。
3. 效果如何
- 当时在FLIC和MPII上都达到了SOTA。现在放图也没有太大用处,毕竟几年前的了,需要的自己看论文吧。
- 训练细节随便记录一点
- 单人姿态估计问题
- 图像尺寸是256x256
- 数据增强用了旋转
- 损失函数是MSE
- GT使用了2D高斯分布
4. 还存在什么问题&可借鉴之处
- 应该属于目前姿态估计中常用的backbone了,centernet其实也有使用hourglass作为backbone的情况。
- 不过感觉这网络还是比较复杂,估计比较大,时间性能一般。