论文全称:《SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS》
论文地址:https://arxiv.org/pdf/1412.7062.pdf
得益于图像空间转换的不变性,DCNNs在高层的计算机视觉任务表现良好,但是在低层的任务,例如人体姿态估计和语义分割达不到要求。
DCNNs在图像标记任务中的应用存在两个技术障碍:图像信号下采样和空间“不敏感”(不变性)。
为了解决上述两个问题,前者论文使用了空洞卷积的方法(2014年提出),后者论文使用了全连通条件随机场fully-connected Conditional Random Field (CRF)。
条件随机字场在语义分割中得到了广泛的应用,它可以将多路分类器计算出的类得分与通过像素和边缘局部交互捕获的低级信息结合起来。论文里使用的方法是 fully connected pairwise CRF,2011年由Krahenb ¨ uhl & Koltun提出。
“DeepLab”系统的三个主要优点是:
(i)速度(ii)准确性(iii)简单性
模型简述:
- 采用双线性插值法对深度卷积神经网络(具有全卷积层)的粗分数图进行上采样。
- 利用完全连通的CRF对分割结果进行优化。
Fully Connected CRF的能量函数中包括数据项和平滑项两部分,数据项与各个像素属于各类别的概率有关,平滑项控制像素与像素间类别的一致性。传统的CRF的平滑项只考虑相邻像素类别的关联性,而Fully Connected CRF将图像中任意两个像素之间的类别关联性都考虑进来。下面的公式就是Fully Conneted CRF的能量函数,左边是数据项,右边是平滑项。
然后论文解释了每一个项如何计算得来,这里不展开描述,不过应该先了解什么CRF先。
论文还探索了一种多尺度预测方法来提高边界定位精度。
实验结果:
不同算法结果的对比: