HR-Net 论文学习
常见的Backbone一般都用的是图像识别网络,随着网络层数增加,特征图分辨率逐渐降低。
为了保持分辨率,一般使用上采样的方式。上采样的方法包括双线性插值,转置卷积,膨胀卷积等。
为了尽可能保留细节,一般使用特征融合的方法。进行特征融合时,可以使用Skip连接(U-Net)。
HR-Net 网络结构
- 并行高分辨率子网, 每个子网分辨率不变
- 多尺度融合,多个子网之间相互融合,信息融合非常充分
相关工作
High-to-Low and Low-to-High 高低分辨率变换
- 图a是Hourglass(沙漏),它的high-to-low,low-to-high是对称的;
- 图b是Cascaded Pyramid(级联金字塔),b的右半部分通过卷积融合high/low level的特征;
- 图c是SimpleBaseline:转置卷积;
- 图ab中的skip connection用来融合low-level和high-level的特征;
- 图bc中的high-to-low过程是分类网络的一部分(ResNet or VGG),比较heavy,而low-to-high是light的;
- 图d是膨胀卷积;
Multi-scale fusion 多尺度特征融合
最直接的方式就是给多个网络分别输入不同分辨率的图像,然后再合并输出。
Intermediate supervision (or deep supervision)深监督
即在每个阶段结束的时候都计算loss
Our approach 本文方法
- 序列多分辨率子网
- 平行多分辨率子网
- 重复多尺度融合
上采样使用了最近邻采样和1x1卷积 - Heatmap估计
使用均方误差损失函数 - 网络实例化
根据ResNet的设计规则,实例化了用于关键点热图估计的网络,将深度分布到每个阶段,并将通道数分布到每个分辨率。
我们的HRNet包含四个阶段,主体为四个并行的子网,其分辨率逐渐降低到一半,相应的宽度(通道数)增加了一倍。第一阶段包含4个残差单元,每个单元都和ResNet-50一样,是由一个宽度为64的bottleneck组成,紧随其后的是一个3x3卷积特征图,将宽度减少到C,第二,第三,第四阶段分别包含1、4、3个交换块。一个交换块包含4个残差单元,其中每个单元在每个分辨率中包含2个3x3的卷积,以及一个分辨率的交换单元。综上所述,共有8个交换单元,即共进行8次多尺度融合。
在我们的实验中,我们研究了一个小网和一个大网:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段高分辨率子网的宽度C。其他三个并行子网的宽度为64,128,256的HRNet-W32,以及HRNet-W48:96,192,384。