1 知识抽取任务定义和相关比赛
这章主要以数据来源的形式,结构化、半结构化、非结构化 的 知识抽取
关键技术与难点
- 从结构化数据库中获取数据:D2R —-复杂表结构处理
- 从链接数据中获取知识:图映射 —数据对齐
- 从半结构化(网站)数据中获取知识: 使用包装器 —方便的包装器生成,包装器自动生成、更新和维护
- 从文本中获取知识:知识抽取 –结果的准确率与覆盖率
什么是知识抽取
自动化的从文本中发现和抽取相关信息
从多个文本碎片中合并信息
通常应用在特定的领域
将非结构化转化为结构化数据(Schemas Relations Knowledge base RDF triples)
子任务
- 命名实体识别:检测 分类
- 术语抽取:从语料中发现多个单词组成的相关术语
- 关系抽取:
- 事件抽取:事件抽取就是多元关系抽取
- 共指消解:
相关竞赛与数据集
- MUC
- ACE
- KBP(TAC Knowledge Base Population)