M2Det

M2Det最大的创新的提出了MLFPN。

M2Det的模型结构

在这里插入图片描述
M2Det使用主干网络+MLFPN来提取图像特征，然后采用类似SSD的方式预测密集的包围框和类别得分，通过NMS得到最后的检测结果。

MLFPN

如上图所示，MLFPN主要有3个模块组成：
1）特征融合模块FFM。
2）细化U型模块TUM。
3）尺度特征聚合模块SFAM。
首先， FFMv1对主干网络提取到的浅层和深层特征进行融合，得到base feature。其次，堆叠多个TUM和FFMv2，每个TUM可以产生多个不同scale的feature map，每个FFMv2融合base feature和上一个TUM的输出，并给到下一个TUM作为输入(更高level)。每个level的输出如下公式所述；
$[x_1^l,x_2^l,\cdots,x_i^l]=\begin{cases} T_l(X_{base}), & \text{if $l=1$ } \\ T_l(f(X_{base},x_i^{l-1})), & \text{if $l=2\cdots L$ } \\ \end{cases}$
最后，SFAM通过scale-wise拼接和channel-wise attention来聚合multi-level&multi-scale的特征。

FFM

FFM用于融合M2Det中不同级别的特征，先通过1x1卷积压缩通道数，再进行拼接。具体而言：

FFMv1使用两种不同scale的feature map作为输入，所以在拼接操作之前加入了上采样操作来调整大小。
FFMv2的两个输入的scale相同，所以比较简单。两种FFM的细节如下图所示。

TUM

TUM使用了比FPN和RetinaNet更薄的U型网络。在上采样和元素相加操作之后加上1x1卷积来加强学习能力和保持特征平滑度。TUM中每个解码器的输出共同构成了该TUM的multi-scale输出。每个TUM的输出共同构成了multi-level&multi-scale特征，前面的TUM提供low level feature，后面的TUM提供high level feature。TUM的细节如下图所示：
在这里插入图片描述

SFAM

SFAM的主要思想是利用SE模块对多尺度级联特征映射进行通道级加权，以构造一个多级特征金字塔。
在这里插入图片描述
SFAM来源于M2Det，在M2Det中有8个TUM模块，分别会产生6种形状的特征图，SFAM就是将所有TUM中相同形状的特征图拼接一起，然后利用SE模块对多尺度级联特征映射进行通道级加权。
每个TUM模块产生的特征图均是128×S×S（S为1，3，5，10，20，40），因而通道拼接后大小为128×8=1024，与图示相同。。
在检测阶段，在6层特征金字塔后面接两个卷积层来进行位置回归和分类，六个特征图的默认框的检测范围遵循原始SSD的设置。在特征图的每个点，设置三种不同比例总共六个锚点框。之后

M2Det

M2Det

M2Det

M2Det的模型结构

MLFPN

FFM

TUM

SFAM

猜你喜欢