BP算法推导-softmax层+交叉熵(logloss)

摘要：

在之前的两篇文章中RNN训练与BP算法，BP算法心得体会都是在具体在讲bp算法在神经网络里面的推导。两篇文章都没有讲过和softmax相关的东西。而softmax作为分类任务里面重要的一层，所以打算本篇文章介绍一下softmax层。另外，一致沿用的损失函数都是均方误差，所以借这个机会也讲解下当损失函数是交叉熵时候的推导情况。

引言：

本文打算在RNN训练与BP算法文章的基础，将最后一层输出层改成softmax层，推导整个公式。
下面是前向传播的公式（来源于上面的文章，新来的读者建议新看下这篇文章）

$v_{im}$ 是输入层第 $m$ 个输入与隐藏层中第 $i$ 个神经元所连接的权重。
$u_{in}$ 是隐层自循环的权重（具体表现为上面结构图中那些紫色、绿色的线）
$w_{km}$ 是隐藏层中第m个神经元与输出层第k个神经元连接的权重。
网络中共有 $N_{(i)}个输入单元$ ， $N_{(h)}个隐藏层$ ， $N_{(o)}个输出单元$

$net_{hi}^{t}$ 表示隐藏层第 $i$ 个神经元在 $t$ 时刻激活前的输入。
具体为： $net_{hi}^{t}=\sum_{m=1}^{N_{(i)}}(v_{im}x_m^{t})+\sum_{s=1}^{N_{(h)}}(u_{is}h_s^{t-1})$
经过激活后的输出为： $h_i^{t}=f(net_{hi}^{t})$

$net_{yk}^{t}$ 表示输出层第 $k$ 个神经元在 $t$ 时刻激活前的输入。
具体为： $net_{yk}^{t}=\sum_{m=1}^{N_{(h)}}(w_{km}h_m^{t})$
经过激活后的输出为： $o_k^{t}=g(net_{yk}^{t})$

这里，由于我们输出层是softmax所以只需要把输出层的激活函数 $g(x)$ 设计成： $g(x_i)=\frac{e^{x_i}}{\sum_{k=1}^{all}{e^{x_k}}}$ 。这样我们就能够实现输出层进行softmax的操作。

具体来说： $o_k^{t}=\frac{e^{net_{yk}^{t}}}{\sum_{{k'}=1}^{N(o)}e^{net_{yk'}^t}}$

（大家可能发现了。希望网络输出softmax的结果只需要改输出层激活函数。那么推导公式中可能变化的也只有涉及到输出层激活函数部分的偏导数）

最后定义我们的损失函数——交叉熵：
$E_t=-\sum_{k=1}^{N(o)}z_{k}^{t}*ln(o_k^{t})$
$E=\sum_{t=1}^{step}E_{t}$ 。

1.求 $\left.\frac{\partial E}{\partial w_{km}}\right.$ ：
和之前讲解BP的文章套路一样，我们可以对 $\left.\frac{\partial E}{\partial w_{km}}\right.$ 使用链式法则，具体如下：
$\left.\frac{\partial E}{\partial w_{km}}\right.=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.*\left.\frac{\partial net_{yk}^{t}}{\partial w_{km}}\right.$
对于等式右边第二项很好计算， $\left.\frac{\partial net_{yk}^{t}}{\partial w_{km}}\right.=h_{m}^{t}$
和之前一样，我们定义等式右边第一项为误差信号 $\delta_{yk}^{t}=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.$ 。
然后，下面求解误差信号，通常按照我们的思路，我们会如下推导：

$\delta_{yk}^{t}=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.=\left.\frac{\partial E}{\partial o_k^t}\right.*\left.\frac{\partial o_k^t}{\partial net_{yk}^{t}}\right.$ 。
但是需要注意的是！！！！这是错误的！！！！！
我们看看softmax的公式：
$o_k^{t}=\frac{e^{net_{yk}^{t}}}{\sum_{{k'}=1}^{N(o)}e^{net_{yk'}^t}}$ ，大家需要注意的是，分母是输出层各个神经元叠加之和。也就是说和 $net_{yk}^t$ 不仅仅影响当前的输出 $o_k^t$ ，还影响其余的输出 $o_i^t,i=1,2,....N(o)$ 。所以在这里，误差信号应该改为：

$\delta_{yk}^{t}=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.=\sum_{k'=1}^{N(o)}(\left.\frac{\partial E}{\partial o_{k'}^t}\right.*\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.)$ 。

对于： $\left.\frac{\partial E}{\partial o_{k'}^t}\right.$ 很好求，
具体为： $\left.\frac{\partial E}{\partial o_{k'}^t}\right.=-\frac{z_{k'}^t}{o_{k'}^t}$

对于： $\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.$ 比较麻烦，下面详细推导
这里写图片描述
其中 $A$ 为sotfmax分母，即 $A=\sum_{{k'}=1}^{N(o)}e^{net_{yk'}^t}$ 。
将 $\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.$ 带入 $\delta_{yk}^{t}$ 。
当然，需要在求和项中分成 $k$ 和不为 $k$ 两项。
$\delta_{yk}^{t}=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.=\sum_{k'=1}^{N(o)}(\left.\frac{\partial E}{\partial o_{k'}^t}\right.*\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.)=\left.\frac{\partial E}{\partial o_{k}^t}\right.*\left.\frac{\partial o_{k}^t}{\partial net_{yk}^{t}}\right.+\sum_{k'\neq k}^{}(\left.\frac{\partial E}{\partial o_{k'}^t}\right.*\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.)$

因此对于第一项 $\left.\frac{\partial E}{\partial o_{k}^t}\right.*\left.\frac{\partial o_{k}^t}{\partial net_{yk}^{t}}\right.$ 有：
$\left.\frac{\partial E}{\partial o_{k}^t}\right.*\left.\frac{\partial o_{k}^t}{\partial net_{yk}^{t}}\right.=-\frac{z_{k}^t}{o_{k}^t}*\frac{e^{net_{yk}^t}(A-e^{net_{yk}^t})}{A^2}=-\frac{z_k^t*(A-e^{net_{yk}^t})}{A}=-z_k^t+z_k^t\frac{e^{net_{yk}^t}}{A}$ 。
（这里需要意识到 $o_k^t=\frac{e^{net_{yk}^t}}{A}$ ）
对于第二项： $\sum_{k'\neq k}^{}(\left.\frac{\partial E}{\partial o_{k'}^t}\right.*\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.)$ 有：
$\sum_{k'\neq k}^{}(\left.\frac{\partial E}{\partial o_{k'}^t}\right.*\left.\frac{\partial o_{k'}^t}{\partial net_{yk}^{t}}\right.)=\sum_{k'\neq k}^{}(\frac{z_{k’}^t}{o_{k'}^t}*\frac{e^{net_{yk}^t}*e^{net_{yk'}^t}}{A^2})=\sum_{k'\neq k}^{}\frac{z_{k'}^t*e^{net_{yk}^t}}{A}=e^{net_{yk}^t}\sum_{k'\neq k}^{}\frac{z_{k'}^t}{A}$ （注意到 $e^{net_{yk}^t}$ 下表不再是 $k'$ 不需要参与求和）
把两项合在一起可以得到：
$\delta_{yk}^{t}=-z_k^t+z_k^t\frac{e^{net_{yk}^t}}{A}+e^{net_{yk}^t}\sum_{k'\neq k}^{}\frac{z_{k'}^t}{A}=-z_k^t+\frac{e^{net_{yk}^t}}{A}\sum_{k=1}^{N(o)}{z_{k}^t}$
值得注意的是，每一次输出中只有一个目标标签为1。故 $\sum_{k=1}^{N(o)}{z_{k}^t}=1$ ,所以有：
$\delta_{yk}^{t}=-z_k^t+z_k^t\frac{e^{net_{yk}^t}}{A}+e^{net_{yk}^t}\sum_{k'\neq k}^{}\frac{z_{k'}^t}{A}=-z_k^t+\frac{e^{net_{yk}^t}}{A}=o_k^t-z_k^t$ 。
至此，我们推导完毕，即： $\delta_{yk}^{t}=o_k^t-z_k^t$ 。

$\left.\frac{\partial E}{\partial w_{km}}\right.=\left.\frac{\partial E}{\partial net_{yk}^{t}}\right.*\left.\frac{\partial net_{yk}^{t}}{\partial w_{km}}\right.=\delta_{yk}^{t}*h_m^t=(o_k^t-z_k^t)*h_m^t$ 。

ok，至此后面关于其他权重的推导都和之前文章的一样，所以就不再重复了。
另外，这里是一篇关于单层神经网络softmax+交叉熵的推导，其实大多数步骤都是一样的，大家可以参考一下：
参考文章

BP算法推导-softmax层+交叉熵(logloss)

摘要：

引言：

猜你喜欢