LSTM神经网络之前向反向传播算法

上篇文章我们已经学习了循环神经网络的原理，并指出RNN存在严重的梯度爆炸和梯度消失问题，因此很难处理长序列的数据。本篇文章，我们将学习长短期记忆网络(LSTM,Long Short Term Memory)，看LSTM解决RNN所带来的梯度消失和梯度爆炸问题。

1.从RNN到LSTM

RNN模型具有如下所示的结构，其中每个索引位置t都有一个隐藏状态 $h^{(t)}$ 。

如果省略每层的 $o^{(t)},L^{(t)},y^{(t)}$ ，则RNN模型可以简化到如下所示的结构。其中隐藏状态的 $h^{(t)}$ 由 $x^{(t)}$ 和 $h^{(t-1)}$ 得到，得到 $h^{(t)}$ 后可用于计算当前层的模型损失和下一层的 $h^{(t+1)}$ 。

为解决梯度消失的问题，大牛们针对RNN序列索引位置t的隐藏结构作出相应改进，进而提出LSTM模型。其中LSTM模型有多种形式，下面我们以最常见的LSTM模型为例进行讲解。

2.LSTM模型结构

LSTM模型除了和RNN模型具有相同的隐藏状态 $h^{(t)}$ 外，还增加了新的隐藏状态 $C^{(t)}$ ，如下图中横线所示。新增加的隐藏状态称为细胞状态(Cell State)，记为 $C^{(t)}$ 。

除了细胞状态外，LSTM中还多了很多奇怪的结构，称之为门控结构(Gate)。针对每个序列索引位置t，门控结构一般包含遗忘门、输入门和输出门，下面来看看门控结构和细胞状态的结构。

2.1 LSTM之遗忘门

**遗忘门(forget gate)**是以一定的概率控制是否遗忘上一层的隐藏细胞状态，遗忘门的结构如下所示。

输入是上一序列的隐藏状态 $h^{(t-1)}$ 和本序列数据 $x^{(t)}$ ，通过一个激活函数(一般是sigmoid)，得到遗忘门的输出 $f^{(t)}$ 。由于sigmoid的输出 $f^{(t)}$ 在[0,1]之间，因此这里的 $f^{(t)}$ 代表遗忘上一层隐藏细胞状态的概率，数学表达式如下所示。其中 $W_{f},U_{f},b_{f}$ 为线性关系的系数和偏倚， $\sigma$ 为sigmoid激活函数。
$f^{(t)} = \sigma(W_{f}h^{(t-1)} + U_{f}x^{(t)} + b_{f})$

2.2 LSTM之输入门

**输入门(input gate)**负责处理当前序列位置的输入，输入门的结构如下所示。

输入门由两部分组成，第一部分使用sigmoid激活函数，输出为 $i^{(t)}$ ，第二部分使用tanh激活函数，输出为 $a^{(t)}$ ，两者的结果后面会用于相乘后更新细胞状态。 $i^{(t)}$ 和 $a^{(t)}$ 数学表达式如下所示，其中 $W_{i},U_{i},b_{i},W_{a},U_{a},b_{a}$ 为线性关系的系数和偏倚， $\sigma$ 为sigmoid激活函数。
$i^{(t)} = \sigma(W_{i}h^{(t-1)} + U_{i}x^{(t)} + b_i)$

$a^{(t)} = \tanh(W_{a}h^{(t-1)} + U_{a}x^{(t)} + b_a)$

2.3 LSTM之细胞状态更新

研究LSTM输出门之前，我们先看一下LSTM细胞状态的更新，其中遗忘门和输入门的结果都作用于细胞状态 $C^{(t)}$ 。

细胞状态 $C^{(t)}$ 由两部分组成，第一部分是 $C^{(t-1)}$ 和遗忘门输出 $f^{(x)}$ 的乘积，第二部分是输入门的 $i^{(t)}$ 和 $a^{(t)}$ 的乘积，公式如下所示，其中 $\odot$ 为Hadamard积。
$C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)}$

2.4 LSTM之输出门

有了新的隐藏细胞状态 $C^{(t)}$ ，便可以来看输出门，其结构如下所示。

隐藏状态 $h^{(t)}$ 的细胞状态由两部分组成，第一部分 $o^{(t)}$ 由上一序列的隐藏状态 $h^{(t-1)}$ 和本序列数据 $x^{(t)}$ ，以及激活函数Sigmoid组成。第二部分由隐藏状态 $C^{(t)}$ 和tanh激活函数组成，公式如下所示
$o^{(t)} = \sigma(W_oh^{(t-1)} + U_ox^{(t)} + b_o)$

$h^{(t)}= o ^{(t)}\odot tanh(C^{t})$

3.LSTM之前向传播算法

通过上面的介绍，已经能够得到LSTM前向传播算法主要包括更新遗忘门输出、更新输入门、更新细胞状态、更新输出门、更新当前序列索引预测输出，各传播过程如下所示。

更新遗忘门输出

$f^{(t)} = \sigma(W_fh^{(t-1)} + U_fx^{(t)} + b_f)$

更新输入门两部分输出

$i^{(t)} = \sigma(W_ih^{(t-1)} + U_ix^{(t)} + b_i)$

$a^{(t)} = tanh(W_ah^{(t-1)} + U_ax^{(t)} + b_a)$

更新细胞状态

$C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)}$

更新输出门输出

$o^{(t)} = \sigma(W_oh^{(t-1)} + U_ox^{(t)} + b_o)$

$h^{(t)} = o^{(t)}\odot tanh(C^{(t)})$

更新当前序列索引预测输出

$\hat{y}^{(t)} = \sigma(Vh^{(t)}+c)$

4.LSTM之反向传播算法

了解前向传播算法流程之后，对于反向传播算法就非常简单了。我们采用和RNN相同的反向传播算法思路，即通过梯度下降法迭代更新所有的参数。

RNN之中，我们通过隐藏状态 $h^{(t)}$ 和梯度 $\delta ^{(t)}$ 来反向传播误差。在LSTM中，我们有两个隐藏状态，即 $h^{(t)}$ 和 $C^{(t)}$
$\delta _h^{(t)} = \frac{\partial L}{\partial h^{(t)}}$

$\delta _C^{(t)} = \frac{\partial L}{\partial C^{(t)}}$

反向传播时，只有 $\delta _C^{(t)}$ 在反向传播， $\delta_h^{(t)}$ 帮助在当前层计算，如下图所示。

现在我们便来推导反向传播公式，首先是在最后索引位置 $\tau$ 的 $\delta_h^{(\tau)}$ 和 $\delta_C^{(\tau)}$
$\delta_h^{(\tau)} = \frac{\partial L}{\partial O^{(\tau)}} \frac{\partial O^{(\tau)}}{\partial h^{(\tau)}} = V^T(\hat{y}^{(\tau)} - y^{(\tau)})$

$\delta_C^{(\tau)} = \frac{\partial L}{\partial h^{(\tau)}} \frac{\partial h^{(\tau)}}{\partial C^{(\tau)}} = \delta_h^{(\tau)} \odot o^{(\tau)}\odot (1- tanh^2(C^{(\tau)}))$

接着由 $\delta_C^{(t+1)}$ 反向推导 $\delta_C^{(t)}$ ，其中 $\delta_h^{(t)}$ 的梯度由本层的输出梯度误差决定，即
$\delta_h^{(t)} = \frac{\partial L}{\partial h^{(t)}} = V^T(\hat{y}^{(\tau)} - y^{(\tau)})$
而 $\delta_C^{(t)}$ 的反向梯度由上一层 $\delta_C^{(t+1)}$ 的梯度误差和本层从 $h^{(t)}$ 传回来的梯度误差两部分决定，即
$\delta_C^{(t)} = \frac{\partial L}{\partial C^{(t+1)}} \frac{\partial C^{(t+1)}}{\partial C^{(t)}} + \frac{\partial L}{\partial h^{(t)}}\frac{\partial h^{(t)}}{\partial C^{(t)}}=\delta_C^{(t+1)}\odot f^{(t+1)} + \delta_h^{(t)} \odot o^{(t)}\odot (1- tanh^2(C^{(t)}))$
有了 $\delta_h^{(t)}$ 和 $\delta_C^{(t)}$ 之后，计算 $W_f,U_f,b_f,W_a,U_a,b_a,W_i,U_i,b_i,W_o,U_o,b_o,V,c$ 的梯度也就相对很容易了，比如 $W_f$ 为
$\frac{\partial L}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} = \sum _{t=1}^{\tau} \delta_C^{(t)}\odot C^{(t-1)}\odot f^{(t)}\odot (1-f^{(t)})(h^{(t-1)})^T$

5.LSTM怎么解决梯度消失和梯度爆炸

RNN反向传播过程中我们得到如下公式。因为${\tanh}’ \leq 1 $，对于训练过程中大部分情况tanh的导数是小于1的，如果W也是大于0小于1的值，那么传播下去便会趋于0，同理当W很大时，传播下去便会趋于无穷。因此便会出现梯度消失和梯度爆炸的问题。
$\frac{\partial h^{(t+1)}}{\partial h^{(t)}} = diag(1-(h^{(t+1)})^2)W^T$
LSTM能够很好的解决梯度消失和梯度爆炸问题，但怎么解决的呢。我们来看看反向传播过程中 $W_f$ 的变化
$\frac{\partial L}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} = \sum _{t=1}^{\tau} \frac{\partial L}{\partial C^{(t+1)}} \frac{\partial C^{(t+1)}}{\partial C^{(t)}}\frac{\partial C^{(t)}}{\partial f^{(t)}}\frac{\partial f^{(t)}}{\partial W_f} \\ = \sum _{t=1}^{\tau}(\frac{\partial C^{(t+1)}}{\partial C^{(t)}}) \delta_C^{(t+1)} \odot C^{(t-1)}\odot f^{(t)}\odot (1-f^{(t)})(h^{(t-1)})^T$
因为 $C^{(t)} = C^{(t-1)}\odot f^{(t)} + i^{(t)}\odot a^{(t)}$ ，所以 $\frac{\partial C^{(t+1)}}{\partial C^{(t)}}$ 为
$\frac{\partial C^{(t+1)}}{\partial C^{(t)}} = (f^{(t+1)} + ...)$
公式里其余项不重要，这里用省略号代替。可以看出当 $f^{(t+1)}=1$ 时，就算其余项很小，梯度仍然可以很好地传导到上一个时刻，即使层数较深也不会发生梯度下降的问题。当 $f^{(t+1)}=0$ 时，上一时刻的信号不影响到当前时刻，则此项也会为0， $f^{(t)}$ 在这里控制着梯度传导到上一时刻的衰减程度。

5.LSTM总结

LSTM虽然复杂，但能够很好的解决梯度消失和梯度爆炸的问题，只要我们理清各部分之间的关系，进而理解前向和反向传播算法还是不难的。针对RNN和LSTM之中的梯度消失和梯度爆炸的描述，如果有相应错误，欢迎指出。

6.推广

更多内容请关注公众号谓之小一，若有疑问可在公众号后台提问，随时回答，欢迎关注，内容转载请注明出处。