前言

这是一些对于论文《Deep Residual Learning for Image Recognition》的简单的读后总结，首先先奉上该文章的下载超链接：ResNet

这篇文章来自于 Microsoft Research，作者分别是 Kaiming He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun。2015年10月10日发表于arXiv。其是著名的ResNet的来源文章，ResNet是世界上首个具有好的效果的大于100层的深度神经网络。其于ILSVRC和COCO 2015比赛中多次获得第一名：ImageNet检测、ImageNet定位、COCO检测和COCO分割。

该文章探索了更深的网络，18、34、50、101、152层，甚至是1202层。

文章主要内容与贡献

该文章的贡献为：

设计了残差学习(Residual learning)模块；
使用了更深的网络结构并分析了为什么此前的网络在深度过深后会有坏的效果；
仅使用了一个全连接层。

设计了残差学习(Residual learning)模块

由于普通的网络在深度过深时效果反而会变得糟糕（需要注意的是这并不是由于过拟合而造成的问题），如下图：

其中左图是训练误差，右图是测试误差。

因此在此处需要考虑一种新的结构来避免退化问题的发生，有可能由于深度过深而造成了某些特征的丢失，因此，该文章设计了残差学习(Residual learning)模块，如下图所示：

其中，需要映射的函数变为了 $H(x)=F(x)+x$ ，右侧的特征 $x$ 以一种被称作快捷连接（shortcut connections）的形式越过其间的多层权重层后与其间最后一个权重层的输出相加。
普通网络和ResNet的对比
由图可知，ResNet不会出现退化现象。

使用了更深的网络结构并分析了为什么此前的网络在深度过深后会有坏的效果

VGG_vs_ResNet
上图中，左侧的网络是19层的VGG-19(196亿 FLOPs)，中间的是没有加残差学习模块的普通34层网络(36亿 FLOPs)，右侧的网络是34层的加残差学习模块的网络(36亿 FLOPs)。可以发现，该文章的34层网络的计算量远小于VGG-19，仅为其18%。残差学习模块并不影响计算量。