文章目录
实体链接:概念理解
一. 研究背景
- 信息过载:大数据时代,信息爆炸,直接导致信息过载;
信息过载缺点 | 信息过载优点 | 信息过载主要原因 |
---|---|---|
1. 在找到有用的信息之前,我们需要处理更多的无用信息 2. 找到多少有用的信息取决于我们从沙子里淘金的本领 |
只要找,总是能够找到 | 1. 自然语言表达的多样性 2. 自然语言表达的歧义性 |
- 自然语言表达的多样性
1 同一意义可以以多种不同表达 -->> 找全信息很难
2 自然语言表达的弹性 -->> 科比今天发挥的不错&& 科比今天终于吃了顿饺子 这两句话其实表示同一个意思
3 人不人之间表达的差异性和选择性
科密 | 科黑 |
---|---|
科比,小飞侠 黑曼巴 科神 |
科比, 科铁 |
-
自然语言表达的歧义性
1 同一个词语、词组、句子在丌同的上下文中有多种不同的意义
如下,同样都是苹果,但是根据上下文可知表达的不是同一个意思:
中关村的苹果丌错 -> 苹果电脑
新发地的苹果丌错 -> 水果苹果2 找到准确的信息很难, 特别是长尾的信息
如下示例:
想到网上搜索张华,可以搜到很多叫张华的人,
针对自然语言表达的多样性与歧义性问题,实体链接提供了如下的解决方案: 通过将自然语言中的文本不知识库中的条目迚行链接
举例如下:
二. 应用场景示例
一. 以实体为中心的精准信息聚合
1. 跨社交网络的信息集成
将所有不特定实体相关的信息与进行链接, 如新浪微博、 Twitter、新闻、水木、等等
二. 构建知识库
将文本中的实体与知识库中的实体链接,并将知识库中没有的知识补全到知识库中
三. 关键技术
一. 引用表构建
构建引用表原因:引用表存储一个名字所有可能指向的实体, 如: 名字 -> 实体的映射关系
== 构建方法==:锚文本数据挖掘
如下:IBM分别指向三个不同的实体
二. 实体知识构建
1. 实体知名度
定义:表示一个实体被人们知道了解的程度, 高知名度的实体更有可能在文章中被提起
如:水果苹果比电影苹果更常被人提起
2. 实体上下文
定义:特定实体的上下文规律性
如:苹果上下文出现iPad,酷,视网膜屏的苹果更可能是苹果公司
上下文出现好吃、甜、一斤的苹果更可能是水果苹果
3. 实体语义关联度
(1)定义:
1)捕捉实体和实体之间的语义关系
2)相关实体更容易同时出现在一篇文章中
如:
== 如何衡量两个实体之间的相关度==
1)在知识网络中的距离:两个实体在知识网络中的距离越小,说明相关度越大,反之,关联度越小
2)在文章中共现的次数:在文章中,两个实体共现的次数很多,说明这两个实体的相关度很大
4. 文章主题
定义 :一篇文章中的实体应弼不其主题相关
如:
苹果公司更容易出现在IT相关主题的文档中
水果苹果更容易出现在吃或农业相关的文档中
电影《苹果》 倾向于出现在娱乐相关的新闻中
三. 链接推理算法
定义:链接推理算法就是综合实体知识迚行决策的
过程
中关村的苹果不错 --> 水果苹果?苹果电脑?
水果苹果和苹果电脑的上下文
相关度(中关村,水果苹果) = 0.1
相关度(中关村,苹果电脑) = 0.7
说明上文中提及的苹果更有可能是苹果电脑
链接推理又分为局部推理与全局推理
(一)局部推理
定义:考虑单个实体的上下文,不考虑文章中其它实体对该实体的影响
(二)全局推理
四. 总结
- 实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到实用水平
- 加强对长尾(long tail)实体的处理
现有的消歧系统通常只对知名实体迚行消歧
将Web文本中实体不长尾上的实体,如sina微博、Facebook上的用户相连,可创造广阔的应用前景 - From Extraction to Discovery
蝙蝠侠—三部曲之终章 这是新出来的电影,还是老电影、漫画、戒其他?
可以不知识库构建相互补充,从而滚劢式的构建大规模知识图谱
韩先培-《实体链接:从文本到概念》