HR-Net 论文学习

HR-Net 论文学习

常见的Backbone一般都用的是图像识别网络,随着网络层数增加,特征图分辨率逐渐降低。
为了保持分辨率,一般使用上采样的方式。上采样的方法包括双线性插值,转置卷积,膨胀卷积等。
为了尽可能保留细节,一般使用特征融合的方法。进行特征融合时,可以使用Skip连接(U-Net)。

HR-Net 网络结构

在这里插入图片描述

  1. 并行高分辨率子网, 每个子网分辨率不变
  2. 多尺度融合,多个子网之间相互融合,信息融合非常充分

相关工作

High-to-Low and Low-to-High 高低分辨率变换

在这里插入图片描述

  • 图a是Hourglass(沙漏),它的high-to-low,low-to-high是对称的;
  • 图b是Cascaded Pyramid(级联金字塔),b的右半部分通过卷积融合high/low level的特征;
  • 图c是SimpleBaseline:转置卷积;
  • 图ab中的skip connection用来融合low-level和high-level的特征;
  • 图bc中的high-to-low过程是分类网络的一部分(ResNet or VGG),比较heavy,而low-to-high是light的;
  • 图d是膨胀卷积;

Multi-scale fusion 多尺度特征融合

最直接的方式就是给多个网络分别输入不同分辨率的图像,然后再合并输出。

Intermediate supervision (or deep supervision)深监督

即在每个阶段结束的时候都计算loss

Our approach 本文方法

  1. 序列多分辨率子网
    在这里插入图片描述
  2. 平行多分辨率子网
    在这里插入图片描述
  3. 重复多尺度融合
    在这里插入图片描述
    在这里插入图片描述
    上采样使用了最近邻采样和1x1卷积
  4. Heatmap估计
    使用均方误差损失函数
  5. 网络实例化
    根据ResNet的设计规则,实例化了用于关键点热图估计的网络,将深度分布到每个阶段,并将通道数分布到每个分辨率。
    我们的HRNet包含四个阶段,主体为四个并行的子网,其分辨率逐渐降低到一半,相应的宽度(通道数)增加了一倍。第一阶段包含4个残差单元,每个单元都和ResNet-50一样,是由一个宽度为64的bottleneck组成,紧随其后的是一个3x3卷积特征图,将宽度减少到C,第二,第三,第四阶段分别包含1、4、3个交换块。一个交换块包含4个残差单元,其中每个单元在每个分辨率中包含2个3x3的卷积,以及一个分辨率的交换单元。综上所述,共有8个交换单元,即共进行8次多尺度融合。
    在我们的实验中,我们研究了一个小网和一个大网:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段高分辨率子网的宽度C。其他三个并行子网的宽度为64,128,256的HRNet-W32,以及HRNet-W48:96,192,384。
发布了85 篇原创文章 · 获赞 17 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/lun55423/article/details/105691827