网络结构小结

一、图像复原

1、DnCNN

利用ResNet残差学习的思想,但是与ResNet过两层或是三层加shortcut connection的方式不同,而是将网络的输出直接改成residual image(残差图片),设纯净图片为x,带噪音图片为y,假设y=x+v,则v是残差图片。即DnCNN的优化目标不是真实图片与网络输出之间的MSE(均方误差),而是真实残差图片与网络输出之间的MSE。

网络结构:

第一部分:Conv(3 * 3 * c * 64)+ReLu (c代表图片通道数)

第二部分:Conv(3 * 3 * 64 * 64)+BN(batch normalization)+ReLu

第三部分:Conv(3 * 3 * 64)

每一层都zero padding,使得每一层的输入、输出尺寸保持一致。以此防止产生人工边界(boundary artifacts)。第二部分每一层在卷积与reLU之间都加了批量标准化(batch normalization、BN)。DnCNN的卷积核大小设置为3 * 3,并且去掉了所有的池化层。每一层的strides是之前所有层stride的乘积。

原文链接:https://www.jianshu.com/p/3687ffed4aa8

2、VDSR

通过stack filters来获得一个比较大的感受野。最大达到41x41的感受野,在形式上,其实更有点像ResNet。通过一个global的residual connect来解决加深网络而导致的梯度问题。

è¿éåå¾çæè¿°

可以看到在两个与图像复原的网络结构中,都与ResNet有或多或少的关系。他们无一例外的借鉴了残差学习的思想,那么为什么图像复原与残差网络息息相关呢,究其根本,主要是因为ResNet的理论,当残差为0时,堆积层之间等价于恒等映射,而恒等映射是非常容易训练优化的,在图像复原中可能噪音图像与纯净图片残差非常小,因此,使用残差网络会是一个非常好的选择。并且残差网络对抑制深层网络结构的梯度消失和爆炸的问题,有着显著的优势。

caffe-VDSR代码:https://github.com/huangzehao/caffe-vdsr

二、目标跟踪

1、FRN

图像中存在不同尺寸的目标,而不同的目标具有不同的特征,利用浅层的特征就可以将简单的目标的区分开来;利用深层的特征可以将复杂的目标区分开来;这样我们就需要这样的一个特征金字塔来完成这件事。首先我们在输入的图像上进行深度卷积,然后对Layer2上面的特征进行降维操作(即添加一层1x1的卷积层),对Layer4上面的特征就行上采样操作,使得它们具有相应的尺寸,然后对处理后的Layer2和处理后的Layer4执行加法操作(对应元素相加),将获得的结果输入到Layer5中去。

caffe-FRN代码:https://github.com/unsky/FPN



原文:https://blog.csdn.net/WZZ18191171661/article/details/79494534 

2、DetNet-59

清华和旷视提出的网络结构,在这个网络结构中是基于ResNet-50提出的,并且最终与FRN结合使用才能使结果最佳。DetNet是在50层的残差网络基础上,只修改最后一阶段即最后9层的网络结构,并且新加入9层,在其中引入膨胀卷积。与ResNet-50和FRN的结合不同,DetNet-59在FPN上要多一个一阶段,增加感受野。

caffe-DetNet-59网络结构代码:https://github.com/JuneZXY/DetNet-59 (PS:该结构是自己根据论文写的,可能会有错)

 

目前就学习到这里~~~

猜你喜欢

转载自blog.csdn.net/zxyjune/article/details/86624280