FPN是一种优化手段,利用特征金字塔来进行目标检测。同时还进行了不同分辨率feature map的融合,将低层feature map的高分辨率信息与高层feature map的高语义信息做了结合。
1. 常见的4种特征金字塔
(a) 由图像金字塔生成特征金字塔,然后分别在每层feature map上做预测,例如OverFeat
(b) 单特征映射: 直接在最后一层feature map上做预测。如Fast R-CNN、Faster R-CNN
(c) 利用卷积过程中产生的不同层级的feature map,分别做预测。如SSD
(d) FPN,就是本文的。利用卷积过程中产生的不同层级的feature map,自上而下(top-down),对上层的feature map做上采样,下层的feature map做1x1的卷积(为了使channel和上层相同),然后融合成一个feature map,进行预测。
2. FPN的Top-down结构与横向连接
上面(d)已经讲了,这里再配个图说明一下。
将上层的粗糙的分辨率的feature map进行上采样,与下层高分辨率的feature map融合。好吧,YOLOv3就是这样的。融合后,FPN再用一个3x3的卷积核处理,得到最终要预测的feature map。如此一来,就可以将上层丰富的语义信息和下层的高分辨率信息结合,有利于小目标的检测。
高分辨率图像对小目标的检测是非常重要的,因为随着下采样,分辨率降低,小目标的信息也会丢失很严重。