简介
这篇论文主要提出了两种新型的神经网络结构——一种依赖于双向LSTM和条件随机场(CRF),另外一种是受移近/规约解析( shift-reduce)的启发,使用基于转移(transition-based)的方法去构建、标记句子段。论文总的模型依赖于两个关于单词的信息来源:(i)从监督语料库中学习的基于字符的单词表示和(ii)从未注释语料库中学习的无监督单词表示。
存在问题
目前NER是个具有挑战性的工作,原因如下:
- 只有很少的训练数据可以获得
- 可以被命名的实体时间的界限模糊,难以用较少的语料将命名实体结果通用化
目前大多数的命名实体识别都是通过详细地构建单词特征以及语言相关的知识资源(例如,地名录)来解决问题,但是在新语言和新领域中开发语言特定的资源和特性的成本非常高。