卷积神经网络CNN的反向传播原理

回顾

　　上一篇博客《详解神经网络的前向传播和反向传播》推导了普通神经网络（多层感知器）的反向传播过程，这篇博客参考刘建平Pinard 《卷积神经网络(CNN)反向传播算法》对卷积神经网络中反向传播的不同之处进行了讨论。
　　我们先简单回顾一下普通神经网络（DNN）中反向传播的四个核心公式：

\begin{matrix} (BP1) & δ_{j}^{L} = \frac{\partial C}{\partial z_{j}^{L}} = \frac{\partial C}{\partial a_{j}^{L}} \frac{\partial a_{j}^{L}}{\partial z_{j}^{L}} = \frac{\partial C}{\partial a_{j}^{L}} σ^{'} (z_{j}^{L}) \end{matrix}

$\delta_j^L=\frac{\partial C}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L}\sigma'(z_j^L) \tag{BP1}$

\begin{matrix} (BP2) & δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) ⊙ σ^{'} (z^{l}) \end{matrix}

$\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l) \tag{BP2}$

\begin{matrix} (BP3) & \frac{\partial C}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{l}}{\partial b_{j}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} = δ_{j}^{l} \end{matrix}

$\frac{\partial C}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^l}{\partial b_j^l}=\frac{\partial C}{\partial z_j^l}=\delta_j^l \tag{BP3}$

\begin{matrix} (BP4) & \frac{\partial C}{\partial w_{j k}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} \frac{\partial z_{j}^{L}}{\partial w_{j k}^{l}} = \frac{\partial C}{\partial z_{j}^{l}} a_{k}^{l - 1} = a_{k}^{l - 1} δ_{j}^{l} \end{matrix}

$\frac{\partial C}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_j^l}\frac{\partial z_j^L}{\partial w_{jk}^l}=\frac{\partial C}{\partial z_j^l}a_k^{l-1}=a_k^{l-1}\delta_j^l \tag{BP4}$ 只要计算出

\frac{\partial C}{\partial w_{j k}^{l}}

$\frac{\partial C}{\partial w_{jk}^l}$ 和

\frac{\partial C}{\partial b_{j}^{l}}

$\frac{\partial C}{\partial b_j^l}$ 就能使用梯度下降算法对网络进行训练了。

问题提出

　　那么我们能不能直接在CNN上直接套用DNN的传播算法呢？当然不能，不然我也不会写这篇博客了嘿嘿。我们先从最直观的网络结构的角度来分析一下。
1. 全连接层
　　CNN中的全连接层和DNN层结构完全一致，这个可以照搬。
2. 池化层
　　池化层简而言之就是利用feature map的统计特征来代表这块区域。如下图所示，可以利用红色区域的均值、最大值、最小值等统计量来代表该块红色区域，一方面引入了平移不变性（这个在另外一篇博客中讲），一方面减少了参数数量。但是我们在反向传播时，知道右边 $2\times2$ 区域的 $\delta^l$ 的情况下，如何计算左边完整区域的 $\delta^{l-1}$ ?而且池化层一般没有激活函数，这个问题怎么处理？

3. 卷积层
　　卷积层是通过张量卷积，或者说是若干个矩阵卷积求和而得到当前层的输出，这和DNN直接进行矩阵乘法有很大区别，那么如何递推相应的

δ^{l - 1}

$\delta^{l-1}$ 呢？

4. 反卷积层和BN层
　　这个日后弄懂再补上来。

池化层的反向传播

　　池化层没有激活函数可以直接看成用线性激活函数，即 $\sigma(z)=z$ ，所以 $\sigma'(z)=1$ 。接下来看看池化层如何递推 $\delta^l$ 。
　　在前向传播时，我们一般使用max或average对输入进行池化，而且池化区域大小已知。反向传播就是要从缩小后的误差 $\delta^{l+1}$ ，还原池化前较大区域对应的误差 $\delta^l$ 。根据（BP2）， $\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)$ ，在DNN中 $w^{l+1}$ 是已知的，所以我们可以直接通过矩阵乘法将 $l+1$ 层的误差映射回 $l$ 层的误差，但对于池化层，要求 $(w^{l+1})^T\delta^{l+1}$ 就需要一些特殊的操作了。
　　用一个例子可以很清楚的解释这一过程：假设现在我们是步长为1的 $2\times 2$ 池化， $4 \times 4$ 大小的区域经过池化后变为 $2\times 2$ 。如果 $\delta_l$ 的第k个子矩阵为：

δ_{k}^{l + 1} = [\begin{matrix} 2 & 8 \\ 4 & 6 \end{matrix}]

$\delta_k^{l+1}=\left[ \begin{matrix}2 & 8\\4 & 6 \end{matrix} \right]$ 首先我们要确定

δ_{k}^{l + 1}

$\delta_k^{l+1}$ 中4个误差值分别和原来

4 \times 4

$4\times 4$ 大小的哪个子区域所对应，根据前向传播中池化窗口的移动过程，我们可以很轻松的确定2对应左上角

2 \times 2

$2\times 2$ 的区域，8对应右上角

2 \times 2

$2\times 2$ 的区域，以此类推。这一步完成之后，我们就要对不同类型的池化进行不同的操作。
　　如果是max pooling，我们只需要记录前向传播中最大值的位置，然后将误差放回去即可。如果最大值位置分别为

2 \times 2

$2\times 2$ 的左上，右下，右上，左下，还原后的矩阵为：

(w^{l + 1})^{T} δ^{l + 1} = [\begin{matrix} 2 & 0 & 0 & 0 \\ 0 & 0 & 0 & 8 \\ 0 & 4 & 0 & 0 \\ 0 & 0 & 6 & 0 \end{matrix}]

$(w^{l+1})^T\delta^{l+1}=\left[ \begin{matrix}2&0&0&0\\0&0&0&8\\0&4&0&0\\0&0&6&0 \end{matrix} \right]$
　　如果是average pooing，我们只需要将池化单元的误差平均值放回原来的子矩阵即可：

(w^{l + 1})^{T} δ^{l + 1} = [\begin{matrix} 0.5 & 0.5 & 2 & 2 \\ 0.5 & 0.5 & 2 & 2 \\ 1 & 1 & 1.5 & 1.5 \\ 1 & 1 & 1.5 & 1.5 \end{matrix}]

$(w^{l+1})^T\delta^{l+1}=\left[ \begin{matrix}0.5&0.5&2&2\\0.5&0.5&2&2\\1&1&1.5&1.5\\1&1&1.5&1.5 \end{matrix} \right]$ 可以发现这其实就是将上一层的误差进行一次池化的逆操作，还是比较容易理解的。
　　得到了

(w^{l + 1})^{T} δ^{l + 1}

$(w^{l+1})^T\delta^{l+1}$ 之后就可以利用

δ^{l} = ((w^{l + 1})^{T} δ^{l + 1}) ⊙ σ^{'} (z^{l})

$\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)$ 求得

δ_{k}^{l}

$\delta_k^l$ 了。

卷积层的反向传播

　　继续回到方程（BP2）， $\delta^l=((w^{l+1})^T\delta^{l+1})\odot \sigma'(z^l)$ ，那你可能会问，之前说池化层因为 $w^{l+1}$ 无法直接计算，所以需要特殊操作，那么卷积核的参数不是知道吗，岂不是可以直接代入计算了。是带进去计算没错，但是权重矩阵需要旋转180°。为什么呢，下面以一个简单的例子说明。
　　假设 $l$ 层的激活输出是一个 $3\times 3$ 的矩阵，第 $l+1$ 层卷积核 $W^{l+1}$ 是一个 $2\times 2$ 的矩阵，卷积步长为1，则输出 $z^{l+1}$ 是一个 $2\times 2$ 的矩阵。我们简化 $b^l=0$ ，则有：

\begin{matrix} (1) & z^{l + 1} = a^{l} * W^{l + 1} \end{matrix}

$z^{l+1}=a^l*W^{l+1} \tag{1}$ 列出

a

$a$ ，

W

$W$ ，

z

$z$ 的矩阵表达式如下：

\begin{matrix} (2) & [\begin{matrix} z_{11} & z_{12} \\ z_{21} & z_{22} \end{matrix}] = [\begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix}] * [\begin{matrix} w_{11} & w_{12} \\ w_{21} & w_{22} \end{matrix}] \end{matrix}

$\left[ \begin{matrix} z_{11}&z_{12}\\z_{21}&z_{22}\end{matrix} \right]=\left[ \begin{matrix} a_{11}&a_{12}&a_{13}\\a_{21}&a_{22}&a_{23}\\a_{31}&a_{32}&a_{33}\end{matrix} \right] * \left[ \begin{matrix} w_{11}&w_{12}\\w_{21}&w_{22}\end{matrix} \right] \tag{2}$ 利用卷积的定义，很容易得出：

\begin{matrix} (3) & z_{11} = a_{11} w_{11} + a_{12} w_{12} + a_{21} w_{21} + a_{22} w_{22} z_{12} = a_{12} w_{11} + a_{13} w_{12} + a_{22} w_{21} + a_{23} w_{22} z_{21} = a_{21} w_{11} + a_{22} w_{12} + a_{31} w_{21} + a_{32} w_{22} z_{22} = a_{22} w_{11} + a_{23} w_{12} + a_{32} w_{21} + a_{33} w_{22} \end{matrix}

$z_{11}=a_{11}w_{11}+a_{12}w_{12}+a_{21}w_{21}+a_{22}w_{22}\\z_{12}=a_{12}w_{11}+a_{13}w_{12}+a_{22}w_{21}+a_{23}w_{22}\\z_{21}=a_{21}w_{11}+a_{22}w_{12}+a_{31}w_{21}+a_{32}w_{22}\\z_{22}=a_{22}w_{11}+a_{23}w_{12}+a_{32}w_{21}+a_{33}w_{22} \tag{3}$ 接下来我们计算

\frac{\partial C}{\partial a^{l}}

$\frac{\partial C}{\partial a^l}$ ：

\begin{matrix} (4) & \nabla a^{l} = \frac{\partial C}{\partial a^{l}} = \frac{\partial C}{\partial z^{l + 1}} \frac{\partial z^{l + 1}}{\partial a^{l}} = δ^{l + 1} \frac{\partial z^{l + 1}}{\partial a^{l}} \end{matrix}

$\nabla a^l=\frac{\partial C}{\partial a^l}=\frac{\partial C}{\partial z^{l+1}}\frac{\partial z^{l+1}}{\partial a^l}=\delta^{l+1}\frac{\partial z^{l+1}}{\partial a^l} \tag{4}$ 由方程(2)可以得知，

\frac{\partial z^{l + 1}}{\partial a^{l}}

$\frac{\partial z^{l+1}}{\partial a^l}$ 和

W^{l + 1}

$W^{l+1}$ 相关。假设

δ^{l + 1} = [\begin{matrix} δ_{11} & δ_{12} \\ δ_{21} & δ_{22} \end{matrix}]

$\delta^{l+1}=\left[ \begin{matrix}\delta_{11} & \delta_{12}\\ \delta_{21} & \delta_{22}\end{matrix} \right]$ 在式（3）的4个等式中，

a_{11}

$a_{11}$ 只和

z_{11}

$z_{11}$ 有关（

z_{12}, z_{21}, z_{22}

$z_{12},z_{21},z_{22}$ 表达式中均没有

a_{11}

$a_{11}$ ），所以

\nabla a_{11} = δ_{11}^{l + 1} \frac{\partial z_{11}^{l + 1}}{\partial a_{11}^{l}} + δ_{12}^{l + 1} \frac{\partial z_{12}^{l + 1}}{\partial a_{11}^{l}} + δ_{21}^{l + 1} \frac{\partial z_{21}^{l + 1}}{\partial a_{11}^{l}} + δ_{22}^{l + 1} \frac{\partial z_{22}^{l + 1}}{\partial a_{11}^{l}} = δ_{11} w_{11}

$\nabla a_{11}=\delta_{11}^{l+1}\frac{\partial z_{11}^{l+1}}{\partial a_{11}^l}+\delta_{12}^{l+1}\frac{\partial z_{12}^{l+1}}{\partial a_{11}^l}+\delta_{21}^{l+1}\frac{\partial z_{21}^{l+1}}{\partial a_{11}^l}+\delta_{22}^{l+1}\frac{\partial z_{22}^{l+1}}{\partial a_{11}^l}=\delta_{11} w_{11}$ 同理可以得到其他8个

\nabla a

$\nabla a$ ：

\nabla a_{12} = δ_{11} w_{12} + δ_{12} w_{11} \nabla a_{13} = δ_{12} w_{12} \nabla a_{21} = δ_{11} w_{21} + δ_{21} w_{11} \nabla a_{22} = δ_{11} w_{22} + δ_{12} w_{21} + δ_{21} w_{12} + δ_{22} w_{11} \nabla a_{23} = δ_{12} w_{22} + δ_{22} w_{12} \nabla a_{31} = δ_{21} w_{21} \nabla a_{32} = δ_{21} w_{22} + δ_{22} w_{21} \nabla a_{33} = δ_{22} w_{22}

$\nabla a_{12}=\delta_{11}w_{12}+\delta_{12}w_{11}\\ \nabla a_{13}=\delta_{12}w_{12}\\ \nabla a_{21}=\delta_{11}w_{21}+\delta_{21}w_{11}\\ \nabla a_{22}=\delta_{11}w_{22}+\delta_{12}w_{21}+\delta_{21}w_{12}+\delta_{22}w_{11}\\ \nabla a_{23}=\delta_{12}w_{22}+\delta_{22}w_{12}\\ \nabla a_{31}=\delta_{21}w_{21}\\ \nabla a_{32}=\delta_{21}w_{22}+\delta_{22}w_{21}\\ \nabla a_{33}=\delta_{22}w_{22}$ 其实上面的9个式子可以用一个矩阵卷积的形式统一表示：

\begin{matrix} (5) & [\begin{matrix} \nabla a_{11} & \nabla a_{12} & \nabla a_{13} \\ \nabla a_{21} & \nabla a_{22} & \nabla a_{23} \\ \nabla a_{31} & \nabla a_{32} & \nabla a_{33} \end{matrix}] = [\begin{matrix} 0 & 0 & 0 & 0 \\ 0 & δ_{11} & δ_{12} & 0 \\ 0 & δ_{21} & δ_{22} & 0 \\ 0 & 0 & 0 & 0 \end{matrix}] * [\begin{matrix} w_{22} & w_{21} \\ w_{12} & w_{11} \end{matrix}] \end{matrix}

$\left[ \begin{matrix} \nabla a_{11}&\nabla a_{12}&\nabla a_{13}\\\nabla a_{21}&\nabla a_{22}&\nabla a_{23}\\\nabla a_{31}&\nabla a_{32}&\nabla a_{33}\end{matrix} \right]=\left[ \begin{matrix}0&0&0&0\\ 0&\delta_{11} & \delta_{12}&0\\ 0&\delta_{21} & \delta_{22}&0\\0&0&0&0\end{matrix} \right] * \left[ \begin{matrix} w_{22}&w_{21}\\w_{12}&w_{11}\end{matrix} \right] \tag{5}$
　　为了符合梯度计算，我们在误差矩阵周围填充了一圈0，此时我们将卷积核翻转后和反向传播的梯度误差进行卷积，就得到了前一次的梯度误差，然后用（BP2）就可以得到上一层的误差。卷积层的（BP2）形式如下：

δ^{l} = (δ^{l + 1} * r o t 180 (w^{l + 1})) ⊙ σ^{'} (z^{l})

$\delta^l=(\delta^{l+1} * rot180(w^{l+1}))\odot \sigma'(z^l)$
　　还需要注意的是，在利用（BP4）推导该层权重的梯度

\frac{\partial C}{\partial w^{l}}

$\frac{\partial C}{\partial w^l}$ 时，也需要进行一个旋转180°的操作：

\frac{\partial C}{\partial w^{l}} = \frac{\partial C}{\partial z^{l}} \frac{\partial z^{L}}{\partial w^{l}} = δ^{l} \frac{\partial z^{L}}{\partial w^{l}} = δ^{l} * r o t 180 (a^{l - 1})

$\frac{\partial C}{\partial w^l}=\frac{\partial C}{\partial z^l}\frac{\partial z^L}{\partial w^l}=\delta^l\frac{\partial z^L}{\partial w^l}=\delta^l*rot180(a^{l-1})$
　　对于偏置

b

$b$ 则有些特殊，因为

δ^{l}

$\delta^l$ 是3维张量，而

b^{l}

$b^l$ 只是一个一维向量，不能像DNN中那样直接

\frac{\partial C}{\partial b^{l}} = δ^{l}

$\frac{\partial C}{\partial b^l}=\delta^l$ ，通常是将

δ^{l}

$\delta^l$ 的各个子矩阵分别求和，得到一个误差向量，即

b^{l}

$b^l$ 的梯度：

\frac{\partial C}{\partial b^{l}} = \sum_{u, v} (δ^{l})_{u, v}

$\frac{\partial C}{\partial b^l}=\sum_{u,v}(\delta^l)_{u,v}$

总结

　　虽然CNN的反向传播和DNN有所不同，但本质上还是4个核心公式的变形，思路是一样的。