HR-Net 论文学习

常见的Backbone一般都用的是图像识别网络，随着网络层数增加，特征图分辨率逐渐降低。
为了保持分辨率，一般使用上采样的方式。上采样的方法包括双线性插值，转置卷积，膨胀卷积等。
为了尽可能保留细节，一般使用特征融合的方法。进行特征融合时，可以使用Skip连接（U-Net）。

HR-Net 网络结构

在这里插入图片描述

并行高分辨率子网, 每个子网分辨率不变
多尺度融合，多个子网之间相互融合，信息融合非常充分

相关工作

High-to-Low and Low-to-High 高低分辨率变换

在这里插入图片描述

图a是Hourglass（沙漏），它的high-to-low，low-to-high是对称的；
图b是Cascaded Pyramid（级联金字塔），b的右半部分通过卷积融合high/low level的特征；
图c是SimpleBaseline：转置卷积；
图ab中的skip connection用来融合low-level和high-level的特征；
图bc中的high-to-low过程是分类网络的一部分（ResNet or VGG），比较heavy，而low-to-high是light的；
图d是膨胀卷积；

Multi-scale fusion 多尺度特征融合

最直接的方式就是给多个网络分别输入不同分辨率的图像，然后再合并输出。

Intermediate supervision （or deep supervision）深监督

即在每个阶段结束的时候都计算loss

Our approach 本文方法

序列多分辨率子网
平行多分辨率子网
重复多尺度融合

上采样使用了最近邻采样和1x1卷积
Heatmap估计
使用均方误差损失函数
网络实例化
根据ResNet的设计规则，实例化了用于关键点热图估计的网络，将深度分布到每个阶段，并将通道数分布到每个分辨率。
我们的HRNet包含四个阶段，主体为四个并行的子网，其分辨率逐渐降低到一半，相应的宽度(通道数)增加了一倍。第一阶段包含4个残差单元，每个单元都和ResNet-50一样，是由一个宽度为64的bottleneck组成，紧随其后的是一个3x3卷积特征图，将宽度减少到C，第二，第三，第四阶段分别包含1、4、3个交换块。一个交换块包含4个残差单元，其中每个单元在每个分辨率中包含2个3x3的卷积，以及一个分辨率的交换单元。综上所述，共有8个交换单元，即共进行8次多尺度融合。
在我们的实验中，我们研究了一个小网和一个大网：HRNet-W32和HRNet-W48，其中32和48分别代表最后三个阶段高分辨率子网的宽度C。其他三个并行子网的宽度为64，128，256的HRNet-W32，以及HRNet-W48：96，192，384。

Bungehurst

发布了85 篇原创文章 · 获赞 17 · 访问量 1万+

私信关注

HR-Net 论文学习

HR-Net 论文学习

HR-Net 网络结构

相关工作

High-to-Low and Low-to-High 高低分辨率变换

Multi-scale fusion 多尺度特征融合

Intermediate supervision （or deep supervision）深监督

Our approach 本文方法

猜你喜欢