cs224n---lecture9: GRU and LSTM

RNN会有梯度消失这样的问题，对于远距离无法进行梯度更新，因此更新主要集中在临近区域。

GRU和LSTM都是为了处理RNN梯度消失问题而设计的，可以学习到长距离依赖。

GRU引入了两个门，分别是update gate和reset gate:

update gate: $z_t = sigmoid(W_zx_t + U_zh_{t-1})$
reset gate: $r_t = sigmoid(W_rx_t + U_rh_{t-1})$

$s_t= tanh(Wx_t + r_t \cdot Uh_{t-1})$ ，候选值。
$h_t = (1-z) \cdot s_t + z \cdot h_{t-1}$ ，此处的短路连接可以缓解梯度消失,当z=1时， $h_t = h_{t-1}$ ，信息得以保持。

重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面的记忆保存到当前时间步的量。当重置门为1，更新门为0的时候，即可获得RNN模型。

LSTM比GRU更加复杂一些，有遗忘门，输入门，输出门。

forget gate: $f_t = sigmoid(W_fx_t + U_fh_{t-1})$
input gate: $i_t = sigmoid(W_ix_t + U_ih_{t-1})$
output gate: $o_t = sigmoid(W_ox_t + U_oh_{t-1})$
$\hat c_t = tanh(W_cx_t + U_ch_{t-1})$
$c_t = f_t \cdot c_{t-1} + i_t \cdot \hat c_t$ 此处的短路连接可以缓解梯度消失
$h_t = o_t \cdot tanh(c_t)$