一、什么是LSTM
Long Short Term 网络即为LSTM,是一种循环神经网络(RNN),可以学习长期依赖问题。RNN 都具有一种重复神经网络模块的链式的形式。在标准的 RNN 中,这个重复的模块只有一个非常简单的结构,例如一个 tanh 层。
如上为标准的RNN神经网络结构,LSTM则与此不同,其网络结构如图:
其中,网络中各个元素图标为:
LSTM 通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。LSTM 拥有三个门,来保护和控制细胞状态。
首先是忘记门:
扫描二维码关注公众号,回复:
2351357 查看本文章
如上,忘记门中需要注意的是,训练的是一个wf的权值,而且上一时刻的隐含层的输出和当前时刻的输入是一个concat操作。忘记门决定我们会从细胞状态中丢弃什么信息,因为sigmoid函数的输出是一个小于1的值,相当于对每个维度上的值做一个衰减。