第二章反向传播算法是如何工作的

作者： Michael Nielsen

简介

在上一章的内容中并没有介绍代价函数的梯度是如何计算的，本章就将介绍反向传播算法，因此本章将更加偏向数学。

基于矩阵来计算神经网络的输出

首先介绍基本的标识符，如图

这里写图片描述
尽管现在看起来这样的定义方式有些怪异，稍微会解释合理性。
对于网络的weight和bias，同样给出标识符，如图

这里写图片描述

b_{3}^{2}

$b^2_3$ 表示神经网络中第2层，第3个神经元的bias，

a_{1}^{3}

$a^3_1$ 表示神经网络中第3层，第2个神经元的激活函数，有了这样的定义，函数式就可以写成

\begin{array}{rcl} (23) & a_{j}^{l} = σ (\sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}), \end{array}

$\begin{eqnarray} a^{l}_j = \sigma\left( \sum_k w^{l}_{jk} a^{l-1}_k + b^l_j \right), \tag{23}\end{eqnarray}$
还有一种更加简洁的写法，可以写成矩阵乘法的方式，这也就是为什么weight要被定义成如此奇怪形式的原因

\begin{array}{rcl} (25) & a^{l} = σ (w^{l} a^{l - 1} + b^{l}) . \end{array}

$\begin{eqnarray} a^{l} = \sigma(w^l a^{l-1}+b^l). \tag{25}\end{eqnarray}$
定义

z_{j}^{l} = \sum_{k} w_{j k}^{l} a_{k}^{l - 1} + b_{j}^{l}

$z^l_j= \sum_k w^l_{jk} a^{l-1}_k+b^l_j$
那么我们就有

a^{l} = σ (z^{l})

$a^l = \sigma(z^l)$
这也是本章内容的基础。

代价函数

\begin{array}{rcl} (26) & C = \frac{1}{2 n} \sum_{x} ‖ y (x) - a^{L} (x) ‖^{2}, \end{array}

$\begin{eqnarray} C = \frac{1}{2n} \sum_x \|y(x)-a^L(x)\|^2, \tag{26}\end{eqnarray}$
随后引入哈达马积，例如：

\begin{array}{rcl} (28) & [\begin{matrix} 1 \\ 2 \end{matrix}] ⊙ [\begin{matrix} 3 \\ 4 \end{matrix}] = [\begin{matrix} 1 * 3 \\ 2 * 4 \end{matrix}] = [\begin{matrix} 3 \\ 8 \end{matrix}] . \end{array}

$\begin{eqnarray} \left[\begin{array}{c} 1 \\ 2 \end{array}\right] \odot \left[\begin{array}{c} 3 \\ 4\end{array} \right] = \left[ \begin{array}{c} 1 * 3 \\ 2 * 4 \end{array} \right] = \left[ \begin{array}{c} 3 \\ 8 \end{array} \right]. \tag{28}\end{eqnarray}$
即矩阵对应位置相乘。

四个基本等式

这里写图片描述
于是我们就有了算法流程：

反向传播算法的重点

为了解释这个算法的行为，假设我们对网络中的权值进行了修改
这里写图片描述

这样的修改会对最后的输出造成影响
这里写图片描述
由于权重的变化造成了损失函数的变化，很自然地我们想要去求它的偏导数。

由于信息是一层一层向下传播的，改变的权重在神经网络中有多条路径通向最后的输出

\begin{array}{rcl} (52) & Δ C \approx \sum_{m n p \dots q} \frac{\partial C}{\partial a_{m}^{L}} \frac{\partial a_{m}^{L}}{\partial a_{n}^{L - 1}} \frac{\partial a_{n}^{L - 1}}{\partial a_{p}^{L - 2}} \dots \frac{\partial a_{q}^{l + 1}}{\partial a_{j}^{l}} \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}} Δ w_{j k}^{l}, \end{array}

$\begin{eqnarray} \Delta C \approx \sum_{mnp\ldots q} \frac{\partial C}{\partial a^L_m} \frac{\partial a^L_m}{\partial a^{L-1}_n} \frac{\partial a^{L-1}_n}{\partial a^{L-2}_p} \ldots \frac{\partial a^{l+1}_q}{\partial a^l_j} \frac{\partial a^l_j}{\partial w^l_{jk}} \Delta w^l_{jk}, \tag{52}\end{eqnarray}$
移项之后得到

\begin{array}{rcl} (53) & \frac{\partial C}{\partial w_{j k}^{l}} = \sum_{m n p \dots q} \frac{\partial C}{\partial a_{m}^{L}} \frac{\partial a_{m}^{L}}{\partial a_{n}^{L - 1}} \frac{\partial a_{n}^{L - 1}}{\partial a_{p}^{L - 2}} \dots \frac{\partial a_{q}^{l + 1}}{\partial a_{j}^{l}} \frac{\partial a_{j}^{l}}{\partial w_{j k}^{l}} . \end{array}

$\begin{eqnarray} \frac{\partial C}{\partial w^l_{jk}} = \sum_{mnp\ldots q} \frac{\partial C}{\partial a^L_m} \frac{\partial a^L_m}{\partial a^{L-1}_n} \frac{\partial a^{L-1}_n}{\partial a^{L-2}_p} \ldots \frac{\partial a^{l+1}_q}{\partial a^l_j} \frac{\partial a^l_j}{\partial w^l_{jk}}. \tag{53}\end{eqnarray}$

《神经网络与深度学习》学习笔记（四）

第二章反向传播算法是如何工作的

作者： Michael Nielsen

简介

基于矩阵来计算神经网络的输出

代价函数

四个基本等式

反向传播算法的重点

猜你喜欢

《神经网络与深度学习》学习笔记（四）

第二章 反向传播算法是如何工作的

作者： Michael Nielsen

简介

基于矩阵来计算神经网络的输出

代价函数

四个基本等式

反向传播算法的重点

猜你喜欢

第二章反向传播算法是如何工作的