前言

之前有证明过一次人工神经网络——【BP】反向传播算法证明，但是回头看的时候，有很多地方非常不严谨，特此拿出来再单独证明一次BP，并严格保证其严谨性。如果想看看粗略的证明，可以去看我之前的博客，毕竟那个貌似也没人说细节有问题，估计很多人没有动手拆分推导。

三层sigmoid激活函数BP扩展到任意激活函数

第一步：前向传播

下图展示了一个三层神经网络：

这里写图片描述

第二步：误差反向传播

模型参数校正是从后往前进行的，所以称为误差逆传播，计算是从输出层到隐藏层，再从隐藏层到输入层。更新的是权重和偏置，称为模型参数，两层的权重和偏置的更新是类似的。

输出层到隐藏层的参数更新

先对权重 $V_{kj}$ 求梯度：

\begin{aligned} Δ V_{k j} & = \frac{\partial E}{\partial V_{k j}} = \frac{\partial E}{\partial y_{k}} \times \frac{\partial y_{k}}{\partial V_{k j}} \\ = (y_{k} - o_{k}) \times σ^{'} (\sum_{j = 1}^{p} V_{k j} b_{j} + β_{k}) \times b_{j} \end{aligned}

$\begin{aligned} \Delta V_{kj}&=\frac{\partial E}{\partial V_{kj}}=\frac{\partial E}{\partial y_k}\times\frac{\partial y_k}{\partial V_{kj}}\\ &=\left(y_k-o_k\right)\times \sigma'\left(\sum_{j=1}^p V_{kj}b_j+\beta_k\right) \times b_j \end{aligned}$
再对输出层的偏置

β_{k} ​

$\beta_k$ 求梯度：

\begin{aligned} Δ β_{k} & = \frac{\partial E}{\partial β_{k}} = \frac{\partial E}{\partial y_{k}} \times \frac{\partial y_{k}}{\partial β_{k}} \\ = (y_{k} - o_{k}) \times σ^{'} (\sum_{j = 1}^{p} V_{k j} b_{j} + β_{k}) \end{aligned}

$\begin{aligned} \Delta \beta_{k}&=\frac{\partial E}{\partial \beta_k}=\frac{\partial E}{\partial y_k}\times\frac{\partial y_k}{\partial \beta_k}\\ &=\left(y_k-o_k\right)\times \sigma'\left(\sum_{j=1}^p V_{kj}b_j+\beta_k\right) \end{aligned}$

隐藏层到输入层的参数更新

先对权重 $W_{ji}$ 求梯度

\begin{aligned} Δ W_{j i} & = \frac{\partial E}{\partial W_{j i}} \\ = \frac{\partial E}{\partial b_{j}} \times \frac{\partial b_{j}}{\partial W_{j i}} \\ = \sum_{k = 1}^{q} [\frac{\partial E_{k}}{\partial y_{k}} \times \frac{\partial y_{k}}{\partial b_{j}}] \times \frac{\partial b_{j}}{\partial W_{j i}} \\ = \sum_{k = 1}^{q} [(y_{k} - o_{k}) \times σ^{'} (\sum_{j = 1}^{p} V_{k j} b_{j} + β_{k}) \times V_{k j}] \times σ^{'} (\sum_{i = 1}^{n} W_{j i} x_{i} + α_{j}) \times x_{i} \\ = \sum_{k = 1}^{q} [Δ β_{k} \times V_{k j}] \times σ^{'} (\sum_{i = 1}^{n} W_{j i} x_{i} + α_{j}) \times x_{i} \end{aligned}

$\begin{aligned} \Delta W_{ji}&=\frac{\partial E}{\partial W_{ji}}\\ &=\frac{\partial E}{\partial b_j}\times\frac{\partial b_j}{\partial W_{ji}}\\ &=\sum_{k=1}^q \left[\frac{\partial E_k}{\partial y_k}\times \frac{\partial y_k}{\partial b_j}\right]\times \frac{\partial b_j}{\partial W_{ji}}\\ &=\sum_{k=1}^q\left[\left(y_k-o_k\right)\times \sigma'\left(\sum_{j=1}^p V_{kj}b_j+\beta_k\right) \times V_{kj}\right]\times \sigma'\left(\sum_{i=1}^nW_{ji}x_i+\alpha_j\right) \times x_i\\ &=\sum_{k=1}^q\left[\Delta \beta_k\times V_{kj}\right]\times\sigma'\left(\sum_{i=1}^nW_{ji}x_i+\alpha_j\right) \times x_i \end{aligned}$
再对偏置

α_{j}

$\alpha_j$ 求梯度

\begin{aligned} Δ α_{j} & = \frac{\partial E}{\partial α_{j}} \\ = \frac{\partial E}{\partial b_{j}} \times \frac{\partial b_{j}}{\partial α_{j}} \\ = \sum_{k = 1}^{q} [\frac{\partial E_{k}}{\partial y_{k}} \times \frac{\partial y_{k}}{\partial b_{j}}] \times \frac{\partial b_{j}}{\partial α_{j}} \\ = \sum_{k = 1}^{q} [(y_{k} - o_{k}) \times σ^{'} (\sum_{j = 1}^{p} V_{k j} b_{j} + β_{k}) \times V_{k j}] \times σ^{'} (\sum_{i = 1}^{n} W_{j i} x_{i} + α_{j}) \\ = \sum_{k = 1}^{q} [Δ β_{k} \times V_{k j}] \times σ^{'} (\sum_{i = 1}^{n} W_{j i} x_{i} + α_{j}) \end{aligned}

$\begin{aligned} \Delta \alpha_j&=\frac{\partial E}{\partial \alpha_j}\\ &=\frac{\partial E}{\partial b_j}\times\frac{\partial b_j}{\partial \alpha_j}\\ &=\sum_{k=1}^q \left[\frac{\partial E_k}{\partial y_k}\times \frac{\partial y_k}{\partial b_j}\right]\times \frac{\partial b_j}{\partial \alpha_j}\\ &=\sum_{k=1}^q\left[\left(y_k-o_k\right)\times \sigma'\left(\sum_{j=1}^p V_{kj}b_j+\beta_k\right) \times V_{kj}\right]\times \sigma'\left(\sum_{i=1}^nW_{ji}x_i+\alpha_j\right)\\ &=\sum_{k=1}^q\left[\Delta \beta_k\times V_{kj}\right]\times\sigma'\left(\sum_{i=1}^nW_{ji}x_i+\alpha_j\right) \end{aligned}$

三层任意激活函数BP扩展到任意层数

网络定义

总共有 $n$ 层，用 $l$ 索引层数，第 $l$ 层第 $j$ 个单元到第 $l-1$ 层第 $i$ 的连接权重为 $W^l_{ji}$ ，第 $l$ 层的第 $j$ 个单元值用 $y_j^l$ 索引，偏置用 $b_j^l$ 索引，则有

\begin{aligned} y_{j}^{l} & = σ (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \\ E & = \frac{1}{2} \sum_{j} {(o_{j} - y_{j}^{n})}^{2} \end{aligned}

$\begin{aligned} y^l_j&=\sigma\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right)\\ E&=\frac{1}{2}\sum_j\left(o_j-y^n_j \right)^2 \end{aligned}$

误差对于任意层的偏置参数求导

\begin{aligned} \frac{\partial E}{\partial b_{j}^{l}} & = \frac{\partial E}{\partial y_{j}^{l}} \times \frac{\partial y_{j}^{l}}{\partial b_{j}^{l}} \\ = \frac{\partial E}{\partial y_{j}^{l}} \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b^l_j}&=\frac{\partial E}{\partial y^l_j}\times \frac{\partial y_j^l}{\partial b_j^l}\\ &=\frac{\partial E}{\partial y^l_j}\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right) \end{aligned}$

很容易发现重点在于 $\frac{\partial E}{\partial y_j^l}$ 的推导，这个就是传说中的链式法则，从最后一层递推到第 $l$ 层，这一步一定要注意上下标

我之前很理所当然地写出了下式

\frac{\partial E}{\partial y^{l}} = \frac{\partial E}{\partial y^{n}} \times \frac{\partial y^{n}}{\partial y^{n - 1}} \dots \times \frac{\partial y^{l + 1}}{\partial y^{l}}

$\frac{\partial E}{\partial y^l}=\frac{\partial E}{\partial y^n}\times\frac{\partial y^n}{\partial y^{n-1}}\cdots\times\frac{\partial y^{l+1}}{\partial y^l}$
如果按照矩阵求导方法深究这个式子是有问题的，第一项

\frac{\partial E}{\partial y^{n}}

$\frac{\partial E}{\partial y^n}$ 是标量对向量的偏导，

\frac{\partial y^{n}}{\partial y^{n - 1}}

$\frac{\partial y^n}{\partial y^{n-1}}$ 是列向量对列向量的求导，它俩的维度根本不一样，做不了乘法操作。那么如何执行链式求导？可以从最后层向前推几层试试：

误差函数对第 $n$ 层的第 $i$ 个单元的偏导：

\frac{\partial E}{\partial y_{i}^{n}} = o_{i} - y_{i}

$\frac{\partial E}{\partial y^n_i}=o_i-y_i$

误差函数对第 $n-1$ 层的第 $i$ 个单元的偏导：

$\frac{\partial E}{\partial y_{i}^{n - 1}} = \sum_{j} [\frac{\partial E}{\partial y_{j}^{n}} \times \frac{\partial y_{j}^{n}}{\partial y_{i}^{n - 1}}]$ $\frac{\partial E}{\partial y^{n-1}_i}=\sum_j\left[ \frac{\partial E}{\partial y^n_j}\times\frac{\partial y^n_j}{\partial y^{n-1}_i}\right]$
误差函数对第 $n-2$ 层的第 $i$ 个单元的偏导：

$\frac{\partial E}{\partial y_{i}^{n - 2}} = \sum_{j} [\frac{\partial E}{\partial y_{j}^{n - 1}} \times \frac{\partial y_{j}^{n - 1}}{\partial y_{i}^{n - 2}}]$ $\frac{\partial E}{\partial y^{n-2}_i}=\sum_j\left[ \frac{\partial E}{\partial y^{n-1}_j} \times \frac{\partial y_j^{n-1}}{\partial y_i^{n-2}}\right]$
然后将误差函数对第 $n-1$ 层的第 $j$ 个单元的偏导带入进来就可以求出来
以此类推…………………
误差函数对第 $l$ 层的第 $i$ 个单元的偏导：

$\frac{\partial E}{\partial y_{i}^{l}} = \sum_{j} [\frac{\partial E}{\partial y_{j}^{l + 1}} \times \frac{\partial y_{j}^{l + 1}}{\partial y_{i}^{l}}]$ $\frac{\partial E}{\partial y^l_{i}}=\sum_j \left[ \frac{\partial E}{\partial y_j^{l+1}} \times \frac{\partial y_j^{l+1}}{\partial y_i^l} \right]$
上述式子中的 $\frac{\partial E}{\partial y^{l+1}_i}$ 可以用递推的方法求解出来，而另一项是:
$\frac{\partial y_{j}^{l + 1}}{\partial y_{i}^{l}} = σ^{'} (\sum_{i} W_{j i}^{l + 1} y_{i}^{l} + b_{j}^{l + 1}) \times W_{j i}^{l + 1}$ $\frac{\partial y_j^{l+1}}{\partial y_i^l}=\sigma'\left(\sum_i W_{ji}^{l+1}y_i^l +b_j^{l+1}\right)\times W_{ji}^{l+1}$

最终得到误差函数关于第 $l$ 层的第 $i$ 个单元偏置参数的偏导

\begin{aligned} \frac{\partial E}{\partial b_{i}^{l}} & = \frac{\partial E}{\partial y_{j}^{l}} \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \\ = \frac{\partial E}{\partial y_{j}^{l + 1}} \times \frac{\partial y_{j}^{l + 1}}{\partial y_{i}^{l}} \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \\ = \sum_{j} [\frac{\partial E}{\partial y_{j}^{l + 1}} \times σ^{'} (\sum_{i} W_{j i}^{l + 1} y_{i}^{l} + b_{j}^{l + 1}) \times W_{j i}^{l + 1}] \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b_i^l}&=\frac{\partial E}{\partial y^l_j}\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right) \\ &=\frac{\partial E}{\partial y_j^{l+1}}\times \frac{\partial y_j^{l+1}}{\partial y_i^l}\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right) \\ &=\sum_j \left[ \frac{\partial E}{\partial y_j^{l+1}} \times \sigma'\left(\sum_iW_{ji}^{l+1}y_i^l +b_j^{l+1}\right)\times W_{ji}^{l+1}\right]\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right) \end{aligned}$
注意上式开头的

\sum_{j}

$\sum_j$ 中的

j

$j$ 是第

l + 1

$l+1$ 层的神经元索引，后面的

σ^{'} (\sum_{i} + b_{J}^{l})

$\sigma'(\sum_i+b_J^l)$ 的

j

$j$ 是第

i

$i$ 层的索引。

式子看起来很复杂，感觉跟网上看到的不一样啊，网上的多简单，这个看着这么多加和以及乘法，乱七八糟的，必须得验证一下，我们把它套到三层BP中，验证隐层和输出层的偏置更新:

误差对输出层的偏置导数

\begin{aligned} \frac{\partial E}{\partial b_{j}^{n}} & = \frac{\partial E}{\partial y_{j}^{n}} \times σ^{'} (\sum_{i} W_{j i}^{n} y_{i}^{n - 1} + b_{j}^{l}) \\ = (y_{j} - o_{j}) \times σ^{'} (\sum_{i} W_{j i}^{n} y_{i}^{n - 1} + b_{j}^{l}) \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b^n_j}&=\frac{\partial E}{\partial y^n_j}\times \sigma'\left(\sum_i W_{ji}^n y_i^{n-1}+b_j^l \right)\\ &=(y_j-o_j)\times \sigma'\left(\sum_i W_{ji}^n y_i^{n-1}+b_j^l \right) \end{aligned}$

误差对隐藏层的偏置导数

\begin{aligned} \frac{\partial E}{\partial b_{j}^{n - 1}} & = \sum_{j} [\frac{\partial E}{\partial y_{j}^{n}} \times σ^{'} (\sum_{i} W_{j i}^{n} y_{i}^{l} + b_{j}^{n}) \times W_{j i}^{n}] \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{n - 2} + b_{j}^{n - 1}) \\ = \sum_{j} [(y_{j} - o_{j}) \times σ^{'} (\sum_{i} W_{j i}^{n} y_{i}^{l} + b_{j}^{n}) \times W_{j i}^{n}] \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{n - 2} + b_{j}^{n - 1}) \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b_j^{n-1}} &=\sum_j \left[ \frac{\partial E}{\partial y_j^n} \times \sigma'\left(\sum_i W_{ji}^ny_i^l +b_j^n\right)\times W_{ji}^n\right]\times \sigma'\left(\sum_i W_{ji}^ly^{n-2}_i+b_j^{n-1}\right)\\ &=\sum_j \left[ \left(y_j-o_j\right) \times \sigma'\left(\sum_iW_{ji}^ny_i^l +b_j^n\right)\times W_{ji}^n\right]\times \sigma'\left(\sum_i W_{ji}^ly^{n-2}_i+b_j^{n-1}\right) \end{aligned}$

可以发现与第二章的结论完全一致的。

误差对任意层的权重参数求导

这个其实与偏置很类似：

\begin{aligned} \frac{\partial E}{\partial W_{j i}^{l}} & = \frac{\partial E}{\partial y_{j}^{l}} \times \frac{\partial y_{j}^{l}}{\partial W_{j i}^{l}} \\ = \frac{\partial E}{\partial y_{j}^{l}} \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \times y_{i}^{l - 1} \\ = \frac{\partial E}{\partial b_{j}^{l}} \times y_{i}^{l - 1} \\ = \sum_{j} [\frac{\partial E}{\partial y_{j}^{l + 1}} \times σ^{'} (\sum_{i} W_{j i}^{l + 1} y_{i}^{l} + b_{j}^{l + 1}) \times W_{j i}^{l + 1}] \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \times y_{i}^{l - 1} \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial W^l_{ji}}&=\frac{\partial E}{\partial y^l_j}\times \frac{\partial y_j^l}{\partial W_{ji}^l}\\ &=\frac{\partial E}{\partial y^l_j}\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right)\times y_i^{l-1} \\&=\frac{\partial E}{\partial b_j^l}\times y_i^{l-1}\\ &=\sum_j \left[ \frac{\partial E}{\partial y_j^{l+1}} \times \sigma'\left(\sum_i W_{ji}^{l+1}y_i^l +b_j^{l+1}\right)\times W_{ji}^{l+1}\right]\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right)\times y_i^{l-1} \end{aligned}$

简化结果

上面的式子看的头晕眼花，复杂得飞起，网上其它教程为啥都那么简单，只有 $\delta^{l+1}$ 什么什么的，我们来试试将上式简化一波，同时也是由于神经网络中并不是一个梯度一个梯度更新，你没有看到过谁写梯度更新用for循环分别控制权重 $w_{ji}$ 的两个维度吧，一般都是直接用矩阵运算计算得到 $w$ ，记住 $E$ 是实数值而非向量， $W$ 和 $b$ 一个是二维矩阵，一个是一维列向量，然后利用矩阵求导法则试试。

在此，先规定，我们所求的偏置向量为列向量，这里先套用实值对列向量的导数如下：

\begin{aligned} \frac{\partial E}{\partial b^{l}} & = [\begin{matrix} \frac{\partial E}{\partial b_{1}} \\ \frac{\partial E}{\partial b_{2}} \\ ⋮ \\ \frac{\partial E}{\partial b_{i}} \\ ⋮ \end{matrix}] \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b^l}&=\begin{bmatrix} \frac{\partial E}{\partial b_1}\\ \frac{\partial E}{\partial b_2}\\ \vdots\\ \frac{\partial E}{\partial b_i}\\ \vdots \end{bmatrix} \end{aligned}$
为了便于书写或者与网络的证明方法对齐，我们还设

\begin{aligned} δ_{j}^{l + 1} & = \frac{\partial E}{\partial y_{j}^{l + 1}} \times σ^{'} (\sum_{i} W_{j i}^{l + 1} y_{i}^{l} + b_{j}^{l + 1}) \\ z_{j}^{l} & = (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \\ \Rightarrow \frac{\partial E}{\partial b_{i}^{l}} & = \sum_{j} [\frac{\partial E}{\partial y_{j}^{l + 1}} \times σ^{'} (\sum_{i} W_{j i}^{l + 1} y_{i}^{l} + b_{j}^{l + 1}) \times W_{j i}^{l + 1}] \times σ^{'} (\sum_{i} W_{j i}^{l} y_{i}^{l - 1} + b_{j}^{l}) \\ = \sum_{j} (δ_{j}^{l + 1} \times W_{j i}^{l + 1}) \times σ^{'} (z_{i}^{l}) \end{aligned}

$\begin{aligned} \delta^{l+1}_j&=\frac{\partial E}{\partial y_j^{l+1}} \times \sigma'\left(\sum_iW_{ji}^{l+1}y_i^l +b_j^{l+1}\right)\\ z^l_j&=\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right)\\ \Rightarrow \frac{\partial E}{\partial b^l_i} &=\sum_j \left[ \frac{\partial E}{\partial y_j^{l+1}} \times \sigma'\left(\sum_iW_{ji}^{l+1}y_i^l +b_j^{l+1}\right)\times W_{ji}^{l+1}\right]\times \sigma'\left(\sum_i W_{ji}^ly^{l-1}_i+b_j^l\right)\\ &=\sum_j\left(\delta^{l+1}_j\times W_{ji}^{l+1}\right)\times\sigma'\left(z^l_i\right) \end{aligned}$
然后我们简化

\frac{\partial E}{b^{l}}

$\frac{\partial E}{b^l}$ ，即误差值对第

l

$l$ 层偏置向量求导得到的梯度向量

\begin{aligned} \frac{\partial E}{\partial b^{l}} & = [\begin{matrix} W_{11}^{l + 1} & W_{21}^{l + 1} & \dots & W_{j 1}^{l + 1} & \dots \\ W_{12}^{l + 1} & W_{22}^{l + 1} & \dots & W_{j 2}^{l + 1} & \dots \\ ⋮ & ⋱ & ⋱ & ⋱ & ⋮ \\ W_{1 i}^{l + 1} & W_{2 i}^{l + 1} & \dots & W_{j i}^{l + 1} & \dots \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋮ \end{matrix}] \times [\begin{matrix} δ_{1}^{l + 1} \\ δ_{2}^{l + 1} \\ ⋮ \\ δ_{j}^{l + 1} \\ ⋮ \end{matrix}] ⊙ [\begin{matrix} σ^{'} (z_{1}^{l}) \\ σ^{'} (z_{2}^{l}) \\ ⋮ \\ σ^{'} (z_{i}^{l}) \\ ⋮ \end{matrix}] \\ = {(W^{l + 1})}^{T} \times δ^{l + 1} ⊙ σ^{'} (z^{l}) \end{aligned}

$\begin{aligned} \frac{\partial E}{\partial b^l}&=\begin{bmatrix} W_{11}^{l+1}&W_{21}^{l+1}&\cdots&W_{j1}^{l+1}&\cdots\\ W_{12}^{l+1}&W_{22}^{l+1}&\cdots&W_{j2}^{l+1}&\cdots\\ \vdots&\ddots&\ddots&\ddots&\vdots\\ W_{1i}^{l+1}&W_{2i}^{l+1}&\cdots&W_{ji}^{l+1}&\cdots\\ \vdots&\vdots&\vdots&\vdots&\vdots \end{bmatrix}\times \begin{bmatrix} \delta^{l+1}_1\\ \delta^{l+1}_2\\ \vdots\\ \delta^{l+1}_j\\ \vdots \end{bmatrix} \odot \begin{bmatrix} \sigma'\left(z^l_1\right)\\ \sigma'\left(z^l_2\right)\\ \vdots\\ \sigma'\left(z^l_i\right)\\ \vdots \end{bmatrix}\\ &=\left(W^{l+1}\right)^T\times \delta^{l+1}\odot\sigma'(z^l) \end{aligned}$
注意式子中”

\times

$\times$ ”代表矩阵与列向量的乘法操作，

⊙

$\odot$ 代表两个相同维度列向量的对应位置元素乘积。

现在应该熟悉了最终的式子与网上的基本一致。这就是整个BP的推导过程。

后记

此篇博客一方面是对上一篇证明BP的博客的更进一步详解与结论证明，另一方面是为了矫正自己之前对矩阵偏导的误解。矩阵偏导分别包含：行向量对行向量的偏导、行向量对列向量的偏导、列向量对列向量的偏导、列向量对行向量的偏导、矩阵对行向量的偏导、矩阵对列向量的偏导、行向量对矩阵的偏导、列向量对矩阵的偏导、矩阵对矩阵的偏导；在证明BP的时候，要严格按照求导法则来做，不能弄混了。

关于使用矩阵对向量的求导来证BP的一些问题，可以见本人与刘建平老师在深度神经网络（DNN）反向传播算法(BP)博客评论区的讨论，主要针对 $\frac{\partial (WX)}{\partial X}$ 即下一层未激活前的输入向量对上一层激活后的输出向量的偏导值是否为 $W^T$ 或者是更大矩阵的讨论。

BP推导——续

前言