Remote Sensing Image Change Detection with Transformers
论文简介:
该论文是2021年发表在ISPRS上的利用transformer做变化检测的工作。利用了LEVIR-CD数据集,下图是论文提出的BIT在该数据集上的结果。
网络模型:
关键点:
BIT能够学习并且关联全局高层语义的上下文信息并可以反馈附加到原始特征。
3个主要步骤
- 从CNN backbone中提取高层特征。
- 用BIT来修饰双时图像特征
- 由预测头获得变化图。
算法流程图
3个关键组件
1.a Siamese semantic tokenizer, 2. transformer encoder (TE),3. a Siamese TD。
a Siamese semantic tokenizer:
TE:
这一模块,在已经获得了两个语义token集。
该模块核心思想是MSA,多个独立注意力分支并行计算。MSA 的优点是它可以在不同的位置联合处理来自不同表示子空间的信息。
TD:
经过TE后,得到了两个语义丰富tokens集,这些语义丰富tokens包含紧凑的高级语义信息,很好地揭示了区域变化信息。 在TD结构中我们需要投影回到像素空间以获得像素级特征。论文认为每个像素都可以用紧致语义的tokens组合来表示。
网络细节:
1)CNN主干网络:修改的ResNet18来提取双时图像特征图。ResNet18一共有五个阶段,每个下采样倍率为2。修改最后两个阶段倍率为1,在最后添加卷积层减少输出通道至32。为了减少空间细节的损失,后加双线性插值层获得下采样倍率为4。
2)双时Transformer: token length L = 4 、NTE=1、NTD=8、h=8、d=8。
3)
4)