一. 介绍
Motivation
作者首先介绍了lexical word information对中文NER的重要性,并提出 lexical word 实际包含了两重信息: 一是词语的边界信息, 二是词语的语义信息。基于此结合现有工作,以Figure1为例,作者提出了两项挑战:
-
如何融合self-matched words.
一个字符的 self-matched lexical words 是指都包含这个字符的 lexical word, 例如北京机场和机场是机字符的 self-matched lexical words, 如果能同时将这两个词的信息融入机, 则可以避免 机 被错误标注为B-LOC 或者O -
如何融合最近词的上下文信息;例如,如果我们注意到离开一词的语义信息,那么就可以认为希尔顿是一个PER, 那么自然地,顿的标签就是I-PER而不是I-ORG或者其他。
Proposed-Model
基于以上motivation, 作者提出了一种character-based Collaborative Graph Networks,且网络每层包含三个子图:
-
Containing-Graph(C-Graph): 建立** 字符与对应self-matched words 间的联系**, 目的在于将 self-matched words 的信息融入到 对应字符 中。
-
Transition-Graph(T-Graph): 建立字符和最近上下文词语间的联系, 目的在于直接融合最近上下文词的信息。
-
Lattice-Graph(L-Graph): 通过多跳来捕捉 self-matched words 和 最近上下文词 的局部信息。
Contributions
-
在中文NER中,提出了 ** Collaborative Graph Networks ** 来直接融合 词典(lexicon)提供的语义信息;
-
在 Collaborative Graph Networks 中构建了三类子图,这三类子图分别捕获不同的信息;
-
本文模型取得了良好的实验效果,并比目前SOTA模型得到了6–15倍的加速。
二. 相关工作
-
介绍 中文NER: 对于边界不明显的中文NER问题,利用词语的边界和语义信息是非常重要的;
-
图神经网络: 首先简要介绍了GCN和GAT, 然后提出现有利用GCN解决中文NER问题的模型都是依赖句法依赖树来建立一个单个的图, 较容易受到错误传播的影响;因此本文提出的模型中包含根据三种方法构建三种子图,能够避免错依赖树解析误差的影响。
三. 模型
构图
Containing-Graph(C-Graph):
- 目的: 辅助字符去捕捉对应self-matched lexicon word的语义信息和边界信息
- 点集: 句子中的字符和 lexicon words
- 构图如下:
Transition-Graph(T-Graph)
- 目的: 捕捉字符最近上下文的语义信息
- 点集: 句子中的字符和 lexicon words
- 构图如下: 建立 lexicon words 与 字符 间 和 lexion words间 的转移关系图
Lattice-Graph(L-Graph)
- 目的: 融合 lexicon knolwedge, 且将 Lattice 的 LSTM 结构转变为了图结构;
- 点集: 句子中的字符和 lexicon words
- 构图如下:
模型
Encoding 层
- 用BiLSTM学习句中每个字符的表示;
- 用预训练的word embedding作为lexicon word的表示;
- 字符表示和word表示的拼接作为这一层的输出
GAT for three interactive graphs
每个GAT的输入是节点特征表示 及对应的邻接矩阵, 输出是节点的新的表示;GAT 的操作通过 个头如下进行:
在最后一层,通过Average得到最后的表示:
C-Graph, T-Graph 和 L-Graph 都通过如上的GAT操作得到字符和lexicon word的表示;然后去掉 lexicon words 的表示,保留下字符的表示作为最终的输出。
Fusion-Layer
Fusion-Layer目标在于将三个Graph所得的 lexicon knowledge 进行融合。Fusion-Layer的输入是BiLSTM得到的字符表示
和三个GAT得到的字符表示
, 通过如下方法fusion:
Decode
通过CRF对字符表示进行解码,得到标注结果;
四. 实验
主要介绍了数据集、实验超参设置、实验总体结果 ,并进行以下消融实验
研究三种Graph的影响
作者分别去掉三种graph中的一种或两种进行试验,结论是每种graph都可以单独使用,但三者联合使用得到最好的效果。
五. Case Study
通过对两则实例分别去掉 C-Graph 和 T-Graph 的实验结果进行了对比:
了解更多论文分享信息,请关注公众号深度学习的知识小屋