
4. 实体抽取和发现

4.1 关系抽取任务定义

Alexander Schutz等人认为关系抽取是自动识别由一对概念和联系这对概念的关系构成的相关三元组。

Example1: 比尔盖茨是微软的CEO
CEO(比尔盖茨, 微软)
Example2: CMU坐落于匹兹堡
Located-in(CMU, 匹兹堡)
Example3:Michael Jordan获得1997/98赛季的MVP
Award(Michael Jordan, 1997/98赛季, MVP)


4.2 传统关系抽取


  • 基于特征向量方法[24-26]

  • 基于核函数方法[27-31]
    论文方法:浅层树核[27]、依存树核[28]、最短依存树核[29]、卷积树核[30, 31]

  • 基于神经网络的方法[32,33]

4.3 开放域关系抽取


4.3.1 按需抽取:Bootstrapping


首都:Rome城市模板“* is a city of ”
 Paris is a city of France.
 Paris is a city of Romance.


4.3.2 开放抽取(OPEN IE)


4.3.3 知识监督开放抽取-Distant Supervision

开放域信息抽取的一个主要问题是缺乏标注语料 Distant Supervision:使用知识库中的关系启发式的标注训练语料.

4.3.4 开放域关系发现

开放域关系发现主要是在现有的知识图谱的基础上,对于未连接的实体之间的关系进行合理的推理和补全。根据知识表示的不同可以分为两大类方法,分别为逻辑符号和分布式表示。 逻辑符号

逻辑表示一般使用归纳逻辑编程 (Inductive Logic Programming)和概率图模型(Probabilistic Graph Model)。优点在于表达能力强,人类可理解以及可提供精确的结果。
但是知识库的规模越来越大,逻辑表示很难高效的扩展到大规模知识库上(例如Freebase);逻辑规则通常使用霍恩子句表达,其在推理时只能考虑与对象有紧密联系的少数概念和关系,不能进行全局推理,否则是NP难问题。因为容纳的影响因素较少,推断不准确;推理建立在明确的符号基础上, 很难学习隐藏的推理规则。
文献[44]通过统计关系路径的共现情况学习霍恩子句表示的推理规则,文献[45]通过实体间在图中的链接特征学习关系分类器,得到路径与关系的推理规则。 分布式表示

- 张量分解法[46]
- 基于翻译的模型[47-63]
相关文献:文献[47]最先提出这一思想,文献[48]将原模型结合非结构化文本进行优化;文献[49-42]在原模型的基础上考虑一对多,多对一,多对多等多种关系;文献[53-55]考虑不同关系和实体类型的分布不均匀的性质;文献[56, 57]将实体的描述结合到原模型中;文献[58, 59]结合推断规则增强推理效果;文献[60, 61]结合关系路径进行考虑;[62, 63]则是其它类型到扩展。
- 基于神经网络的能量函数模型[64, 65]



