这篇论文既提出了一个大规模的RGB-T追踪的数据集,也相应提出了一个Baseline,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。
关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV
RGB-T追踪算法简介
通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为:图片融合、特征融合、决策融合三类。
- 【图片融合】:利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。
- 【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise),再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高,对图片的对齐要求不高。
- 【决策融合】:每个模态独立输出对目标的估计,以response map的形式,然后再融合这两个模态的决策,输出一个final score。
HMFT
这个模型就容纳了以上这三种融合方法。模型图如下,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成:CIF / DFF / ADF。
- Discriminative bransh 分支:
- Complementary bransh 分支 :
图像互补信息融合【CIF】
这个模块的作用是学习两个模态中目标相关的一致性信息。
- 模块的输入: I v I_v Iv和 I t I_t It分别表示RGB图片和Thermal图片。
- 蓝色部分是提取互补信息的网络【Comp. Backbone】,即ResNet50,共享权重,提取共同的特征。这里的 L d i v L_{div} Ldiv是KL-散度的Loss函数,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下:
其中 P v i P_v^i Pvi和 P t i P_t^i Pti分别表示visible图片和thermal图片在ResNet50第 i i i层的特征。所以这是每层特征的KL散度之和求最小。 - 输出是按channel-wise拼接起来的特征 P a ∈ R 2 C ∗ H ∗ W P_a \in \mathbb{R}^{2C*H*W} Pa∈R2C∗H∗W,原本的特征维度为 P v / t ∈ R C ∗ H ∗ W P_{v/t} \in \mathbb{R}^{C*H*W} Pv/t∈RC∗H∗W。
辨别力特征的信息融合【DFF】
这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息;红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模,生成特征再融合。具体流程如下:
-
模型的输入:Backbone网络对两个模态独立输出特征 F v F_v Fv、 F t F_t Ft
-
蓝色框:将 F v F_v Fv、 F t F_t Ft通过对应元素相加(Elem.Sum)合起来,经过一个全局平均池化(GAP)和全连接层(FC)得到一个全局向量 d g d_g dg,包含了两个模态的信息。公式表达如下:这里 D v D_v Dv、 D t D_t Dt就是对应 F v F_v Fv、 F t F_t Ft,应该是笔误。
-
橙色框:利用两个独立的模态专属全连接层 ϝ v \digamma_v ϝv、 ϝ t \digamma_t ϝt+softmax操作生成模态专属的channel-wise的权重 w v w_v wv, w t ∈ R C ∗ 1 ∗ 1 w_t\in \mathbb{R}^{C*1*1} wt∈RC∗1∗1。
#pic_center) -
红色框:用计算出的权重 w v w_v wv, w t w_t wt用channel-wise乘法的方式与最初的模态特征 F v F_v Fv、 F t F_t Ft相乘,再相加。
-
模块的输出:融合后的特征 D a i D_a^i Dai
适应性决策融合【ADF】
这个模块的作用是基于CIF、DFF 分支独立输出的特征图,计算这些特征图的置信度,根据置信度计算这些特征图的权重对特征图加权,再产生最终的特征图。
- 模块的输入:CIF、DFF 分支独立输出的特征图 P a P_a Pa和 D a D_a Da。
- MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度 M c M_c Mc、 M d M_d Md。具体操作是:对于输入的特征 X X X,也就是上面的 P a P_a Pa和 D a D_a Da,先通过1*1的卷积降低特征维度(为了降低计算量),再经过Reshape操作,将 X X X的shape从 C × W × H C \times W \times H C×W×H变成 C × W H C \times WH C×WH,作为自注意力机制中的特征嵌入,得到 H W × C HW \times C HW×C的特征,再对channel加和再reshape得到 H × W × 1 H \times W \times 1 H×W×1的模型置信度。计算如下:
- 将 M c M_c Mc和 M d M_d Md 拼接起来,输入到一个两层的Encoder-Decoder网络中,得到模态各自的权重 E c , E d ∈ R H ∗ W E_c, E_d \in \mathbb{R}^{H*W} Ec,Ed∈RH∗W。这个权重对CIF、DFF 分支独立输出的响应图 R c R_c Rc和 R d R_d Rd作element-wise乘(加权操作)得到 R F R_F RF。
R F = R d ⊙ E d + R c ⊙ E c R_F=R_d \odot E_d+R_c \odot E_c RF=Rd⊙Ed+Rc⊙Ec
算法流程
对于当前的追踪图片
- 两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图;
- 利用ADF,对两个分支Discriminative branch和Complementary branch 的响应图进行融合,生成最终响应图;
- 利用DiMP中IoU预测模块,对最终响应图中取10个proposal,再对proposal预测IoU分数,取分数最高的三个proposal作平均,输出最终的预测边界框。
QQQQQ QQ Q