Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
概述
作者提出了一种基于注意力机制的双向LSTM框架用于关系抽取。方法的主要创新点引入了注意力机制。
神经网络框架
框架非常简单,也是作者一直强调的。Embedding Layer、LSTM layer、Attention Layer。Embedding Layer,跟通常的Embedding没有什么区别,首先使用训练好的word vector初始化,然后在训练过程中微调。
LSTM Layer
文章中使用的是LSTM的变体,其与LSTM的区别如下图,思想是各个门也将上一个记忆单元考虑上。
计算公式如下
Attention Layer
attention层详细可以完全通过公式说明
H是BILSTM的输出,size为 , v是词向量的维度, T是序列的长度,H首先通过tanh函数激活得到M
再通过全连接层+softmax层得到 , w的size是 , 所以 的size是 。最后H乘以权重,得到
的输出r, size为 。最后经过tanh函数激活得到最后输出h, size为 。得到输出后,直接作为
softmax层的输入,就可以得到相应预测标签的输出。
说明
作者嵌入实体位置信息,是通过改变原始序列。在实体的开始和结尾加入分隔符。