M2Det

M2Det

M2Det最大的创新的提出了MLFPN。

M2Det的模型结构

在这里插入图片描述
M2Det使用主干网络+MLFPN来提取图像特征,然后采用类似SSD的方式预测密集的包围框和类别得分,通过NMS得到最后的检测结果。

MLFPN

如上图所示,MLFPN主要有3个模块组成:
1)特征融合模块FFM。
2)细化U型模块TUM。
3)尺度特征聚合模块SFAM。
首先, FFMv1对主干网络提取到的浅层和深层特征进行融合,得到base feature。其次,堆叠多个TUM和FFMv2,每个TUM可以产生多个不同scale的feature map,每个FFMv2融合base feature和上一个TUM的输出,并给到下一个TUM作为输入(更高level)。每个level的输出如下公式所述;
[ x 1 l , x 2 l , ⋯   , x i l ] = { T l ( X b a s e ) , if  l = 1   T l ( f ( X b a s e , x i l − 1 ) ) , if  l = 2 ⋯ L   [x_1^l,x_2^l,\cdots,x_i^l]=\begin{cases} T_l(X_{base}), & \text{if $l=1$ } \\ T_l(f(X_{base},x_i^{l-1})), & \text{if $l=2\cdots L$ } \\ \end{cases} [x1l,x2l,,xil]={ Tl(Xbase),Tl(f(Xbase,xil1)),if l=if l=2L 
最后,SFAM通过scale-wise拼接和channel-wise attention来聚合multi-level&multi-scale的特征。

FFM

FFM用于融合M2Det中不同级别的特征,先通过1x1卷积压缩通道数,再进行拼接。具体而言:

  1. FFMv1使用两种不同scale的feature map作为输入,所以在拼接操作之前加入了上采样操作来调整大小。
  2. FFMv2的两个输入的scale相同,所以比较简单。两种FFM的细节如下图所示。
    在这里插入图片描述

TUM

TUM使用了比FPN和RetinaNet更薄的U型网络。在上采样和元素相加操作之后加上1x1卷积来加强学习能力和保持特征平滑度。TUM中每个解码器的输出共同构成了该TUM的multi-scale输出。每个TUM的输出共同构成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature。TUM的细节如下图所示:
在这里插入图片描述

SFAM

SFAM的主要思想是利用SE模块对多尺度级联特征映射进行通道级加权,以构造一个多级特征金字塔。
在这里插入图片描述
SFAM来源于M2Det,在M2Det中有8个TUM模块,分别会产生6种形状的特征图,SFAM就是将所有TUM中相同形状的特征图拼接一起,然后利用SE模块对多尺度级联特征映射进行通道级加权。
每个TUM模块产生的特征图均是128×S×S(S为1,3,5,10,20,40),因而通道拼接后大小为128×8=1024,与图示相同。。
在检测阶段,在6层特征金字塔后面接两个卷积层来进行位置回归和分类,六个特征图的默认框的检测范围遵循原始SSD的设置。在特征图的每个点,设置三种不同比例总共六个锚点框。之后

猜你喜欢

转载自blog.csdn.net/weixin_39994739/article/details/123460833
M2M