机器学习算法完整版见fenghaootong-github

循环神经网络原理（RNN）

RNN是在自然语言处理领域中最先被用起来的
语言模型就是这样的东西：给定一个一句话前面的部分，预测接下来最有可能的一个词是什么。
简单的循环神经网络由输入层、一个隐藏层和一个输出层组成：

这里写图片描述

x是一个向量，它表示输入层的值（这里面没有画出来表示神经元节点的圆圈）；
s是一个向量，它表示隐藏层的值（这里隐藏层面画了一个节点，这一层其实是多个节点，节点数与向量s的维度相同）；
U是输入层到隐藏层的权重矩阵；
o也是一个向量，它表示输出层的值；
V是隐藏层到输出层的权重矩阵。
循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x，还取决于上一次隐藏层的值s。
权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。

展开后:

这里写图片描述

o_{t} = g (V s_{t})

$o_t = g(Vs_t)$

s_{t} = f (U x_{t} + W s_{t - 1})

$s_t = f(Ux_t + Ws_{t-1})$

f,g都是激活函数
第一个式子是全连接层，第二个式子是循环层
循环层和全连接层的区别就是循环层多了一个权重矩阵 W。

$o_t = g(Vs_t) \ = g(Vf(Ux_t + Ws_{t-1})) \ = g(Vf(Ux_t + Wf(Ux_{t-1} + Ws_{t-2})))\ = g(Vf(Ux_t + Wf(Ux_{t-1} + Wf(Ux_{t-2} + Ws_{t-3})))) \ = g(Vf(Ux_t + Wf(Ux_{t-1} + Wf(Ux_{t-2} + Wf(Ux_{t-3} + …)))))$

循环神经网络的训练

前向计算每个神经元的输出值 $a_j$ （表示网络的第j个神经元，以下同）；
反向计算每个神经元的误差项 $\sigma_j， \sigma_j$ 在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数 $E_d$ 对神经元加权输入的偏导数
计算每个神经元连接权重的梯度（表示从神经元i连接到神经元j的权重）
- 最后，根据梯度下降法则更新每个权重即可。

长短时记忆网络(LSTM)

RNN有个缺点就是很难处理长距离依赖，就是记性差，LSTM成功解决了原始RNN的缺陷

原始的RNN隐藏层只有一个状态，现在再增加一个状态c，让它保存长期的状态

这里写图片描述

LSTM的输入有三个：

$x_t$ :当前时刻网络的输入值
$h_{t-1}$ :上一时刻LSTM的输出值
$c_{t-1}$ :上一时刻的单元状态

LSTM的输出有两个：

$h_t$ :当前时刻LSTM输出值
$c_t$ : 当前时刻的单元状态

LSTM的关键，就是怎样控制长期状态c。在这里，LSTM的思路是使用三个控制开关。第一个开关，负责控制继续保存长期状态c；第二个开关，负责控制把即时状态输入到长期状态c；第三个开关，负责控制是否把长期状态c作为当前的LSTM的输出。

前向计算

实现开关的算法，就是门，门实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量。假设W是门的权重向量，b是偏置项，那么门可以表示为：

g (x) = σ (W x + b)

$g(x) = \sigma(Wx + b)$

$\sigma$ 是激活函数，值域为(0,1)

LSTM用两个门控制单元状态c的内容：
- 遗忘门：决定了上一时刻的单元状态 $c_{t-1}$ 有多少保留到当前时刻 $c_t$
- 输入门：决定了当前时刻网络的输入 $x_t$ 有多少保存到单元状态 $c_t$

输出门控制单元状态 $c_t$ 有多少输出到当先输出值 $h_t$

遗忘门：

f_{t} = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f})

$f_t = \sigma(W_f\cdot[h_{t-1},x_t] + b_f)$

这里写图片描述

输入门：

i_{t} = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i})

$i_t = \sigma(W_i\cdot[h_{t-1},x_t] + b_i)$

这里写图片描述

当前输入状态 $\tilde{c_t}$ :

\tilde{c_{t}} = t a n h (W_{c} [h_{t - 1}, x_{t}] + b_{c})

$\tilde{c_t} = tanh(W_c[h_{t-1},x_t] + b_c)$

这里写图片描述

当前时刻的单元状态 $c_t$ :

c_{t} = f_{t} \circ c_{t - 1} + i_{t} \circ \tilde{c_{t}}

$c_t = f_t\circ c_{t-1} + i_t\circ\tilde{c_t}$

$\circ$ 表示按元素乘

这里写图片描述

输出门：

o_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o})

$o_t = \sigma(W_o\cdot[h_{t-1},x_t] + b_o)$

这里写图片描述

最终输出：

h_{t} = o_{t} \circ t a n h (c_{t})

$h_t = o_t\circ tanh(c_t)$

这里写图片描述

实例

RNN实例

RNN算法

循环神经网络原理（RNN）

循环神经网络的训练

长短时记忆网络(LSTM)

猜你喜欢