RNN循环神经网络里的BPTT算法

这两天对RNN循环神经网络进行了学习，由一无所知到现在对什么是RNN以及它的前向传播和反向传播有了认识，尤其是BPTT算法的推导有些繁琐，但是推过一次后，对RNN反向传播求梯度的过程有了更清晰的认识。

下面是朴素的RNN循环神经网络图。（图1）
RNN网络图

我在写博客前，自己先手写了一份推导过程。（图2）
手写BTPP推导

为何BPTT更难？

因为多了状态之间的传递（即隐层单元之间的“交流”），根据前向传播算法，我们知道 $s_t^* = Ws_{t-1} + Ux_t ,$ 而 $s_{t-1} = f(s_{t-1}^*) = f(Ws_{t-2}+Ux_{t-1})$ ,这说明 $s_{t-1}$ 也是关于 $W$ 的式子。

这样层层嵌套下去……就会追溯到 $s_0$ 。可以意识到我们对 $W、U$ 的梯度求解是繁琐的，而这正是BPTT的难点所在。对于 $V$ 的梯度求解，并没有受到状态之间传递的影响，因此和我们BP算法求解方式是一样的。

我们用 $*$ 表示element-wise, $×$ 表示矩阵乘法。
我们采用交叉熵损失函数，即 $L_t = - (y_tlog(o_t)+(1-y_t)log(1-o_t))$
我们定义隐藏层的激活函数为sigmoid函数 $s_t = f(s_t^*)$ ,输出层的激活函数也为sigmoid函数 $o_t = g(o_t^*)$ 。 $f' = s_t*(1-s_t), g' = o_t*(1-o_t)$ 。具体求导读者自行证明。

由前向传播可知， $o_t = g(o_t^*)=g(Vs_t)$

那么 $\frac{\partial L_t}{\partial V} = \frac{\partial L_t}{\partial o_t}* \frac{\partial o_t}{\partial o_t^*}·\frac{\partial o_t^*}{\partial V} = -(\frac{y_t}{o_t}+\frac{y_t-1}{\partial 1-o_t})*o_t*(1-o_t)·\frac{\partial o_t^*}{\partial V} = (o_t-y_t)×s_t^ \mathrm{ T }$

不同时刻的 $\frac{\partial L_t}{\partial V}$ 要相加，得到最后的 $\frac{\partial L}{\partial V}$ 。

由前向传播可知，对于时刻t而言， $s_{t-1}$ 也是关于 $W$ 的式子，因此我们在求 $\frac{\partial L_t}{\partial W}$ 时，不能简单的将 $s_{t-1}$ 视为常量，因此 $\frac{\partial L_t}{\partial W} = \sum_{k=0}^t \frac{\partial L_t}{\partial s_k^*}×s_{k-1}^ \mathrm{ T }$ (注意，在我这里是把第一个时刻从0开始)。

$\frac{\partial L_t}{\partial s_t^*} = \frac{\partial L_t}{\partial o_t^*}· \frac{\partial o_t^*}{\partial s_t^*}= V^\mathrm{T}×(o_t-y_t)*s_t*(1-s_t)$
$\frac{\partial L_t}{\partial s_{k-1}^*} = \frac{\partial L_t}{\partial s_k^*}· \frac{\partial s_k^*}{\partial s_{k-1}}*\frac{\partial s_{k-1}}{\partial s_{k-1}^*}= s_{k-1}*(1-s_{k-1})*W^\mathrm{T}×\frac{\partial L_t}{\partial s_k^*} (k=1,2,3...t)$

同理， $\frac{\partial L_t}{\partial U} = \sum_{k=0}^t \frac{\partial L_t}{\partial s_k^*}×x_{k}^ \mathrm{ T }$ 。

RNN循环神经网络里的BPTT算法

猜你喜欢