基本信息
IEEE geoscience and remote sensing letters 201802
Q2
中科院地理信息处理实验室
Semantic Segmentation of Aerial Images With Shuffling Convolutional Neural Networks
笔记
作者认为,文章的主要工作在下面三个方面:
- 在航空图像分割领域中,提出一个shuffling CNNs。
- 并且提供一个naive 的版本和一个deeper的版本。
- 提出一种field-of-view(FoV)enhancement的方法。
在ISPRS Vaihingen 和 Postsdam 两个数据集上做了实验。
详细分析如下:
关于第一点,这个shuffling CNNs实际上就是从 CVPR 2016 (Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network)中搬运的一个网络,本文的重点图示也是仿其所画。
主要原理就是用这种shuffling操作,代替上采样的过程。本文作者在原来的基础上做了一点改动后,增加了参数S,用于调整最后输出的特征图的大小。这个参数,是超参,最后是结果是0.5最好。所以,实际上完成了\((H,W) -> (Hs,Ws)\)的映射。一定程度上,这个和第三点FoV的想法是一致的,FoV其实就是膨胀预测的意思,图像的边缘的通常没有完整的上下文信息,所以,用较大的原始图像预测比小一点范围目标图像就会取得更好的精度。
关于第二点,文中结合,所有的模型都是基于DeepLab model。主要使用Rectified deeplab Model(RDM) 作为 baseline,还有一个baseline是在这个基础上加入atrous spatial pyramid pooling(ASPP),也就是RDM+ASPP。
Naive shuffling CNN 仅仅是在RDM的最后的卷积层和softmax之间加了一个shuffling 层。于是,也有一个naive SCNN-ASPP模型,指的一提的是加入了一个ASPP,居然增加了17.59M的参数。
在 naive-SCNN的基础上,增加15个卷积层,BN层,还有ReLU层,组成deeper SCNN。
关于第三点,作者使用是step=368,patch=448和step=800,patch=896。
实验
Vaihingen 数据有五个通道DSMs,near-infrared,red,green和nDSMs。
Potsdam 数据有六个通道near-infrared, red,green, blue, DSMs和 nDSMs 。
RDM 模型最后实际只预测输入图片1/8的大小,主要原因是s=1/2。(不应该是1/4吗?难道是因为还有r=4,所以是1/8?)然后,用双线性插值对这个特征图进行缩放,得到原图大小。
框架使用的是MXNET,sgd+momentum训练。
损失是普通的互熵损失。
训练的时候,采用224*224,样本是随机裁剪的,然后用于训练。
总结
全文的模型主要借鉴了shuffling操作,在deeplab的基础上加入了ASPP的操作。
最后的EDeeper-SCNN,作者是将不同checkpoints的模型获得的特征进行ensemble,这还是第一次见到这种操作~
作者认为这个模型在小目标上更好,主要是实验结果显示小目标,比如车,更好。