知识图谱构建方式:
自顶向下,自底向上
自顶向下:
先为知识图谱定义好本体与数据模式,再将实体加入到实体库。
注意:此种方式需要利用一些现有的结构化知识库作为基础知识库。
自底向上:
从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
行业知识库也称为垂直型知识库。
Extract KBs 涉及两个关键技术:
1.实体链接:
指将文档中的实体名字链接到知识库中特定的实体上。
- 实体识别
- 实体消歧
2.关系抽取:
即将文档中的实体关系抽取出来,主要涉及到:
- 词性标注
- 语法分析
- 依存关系树
- 构建分类器
知识图谱搭建步骤:
知识抽取 -> 知识融合 -> 知识推理
知识抽取:
从一些公开的半结构化和非结构化的数据中提取出实体,关系,属性等知识要素。
知识融合:
消除实体,关系,属性等指称项与事实项之间的歧义,形成高质量的知识库。
知识推理:
在已有的知识库基础上进一步挖掘隐含的知识,从而丰富,扩展知识库。
- 基于逻辑的推理
- 基于图的推理
知识抽取重点:实体抽取或命名实体识别
- 基于规则与词典的方法
- 基于统计机器学习的方法
- 面向开放域的抽取方法
事实并不等于知识,它只是知识的基本单位。
知识加工:本体构建,质量评估。
本体概念:
本体是同一领域内不同主体之间进行交流、连通的语义基础,其主要呈现树状结构,相邻的层次节点或概念之间具有严格的 “IsA” 关系,有利于进行约束、推理等,却不利于表达概念的多样性。
本体在知识图谱中的地位相当于知识库的模具。通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
质量评估:
对知识库的质量评估任务通常是与实体对齐任务一起进行的。意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。
知识更新:
- 模式更新:指本体库中元素的更新,包括概念的增加、修改、删除;概念属性的更新以及概念之间上下位关系的更新等。
- 数据层更新:指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。
查询式语义理解:
- 对查询请求文本进行分词、词性标注以及纠错
- 描述归一化,使其与知识库中的相关知识进行匹配
- 语境分析
多数问答系统更倾向于将给定的问题分解为多个小的问题,然后逐一去知识库中抽取匹配的答案。
医学知识图谱:
医学知识表示:
医学知识抽取,包括实体,关系和属性的抽取
医学知识融合:
医学知识推理,质量评估
医学领域本体的构建需要深入分析医学术语的结果和概念,才能将晦涩甚至是跨语言的医学知识有效的表达出来。
数据:
医学知识本体库:医学概念知识库LinkBase, TAMBIS本体库(Tao)
电子病历标注语料(用统计学和机器学习方法进行实体识别)
自动AVP抽取:
对于形式各异,半结构化的医药站点和垂直文本来说,通常是构建面向站点的包装器,从待抽取站点采样并标注n个典型的详细页面,利用这些页面通过模式学习自动构建出一个或多个Xpath表示的模式,然后将其应用在该站点的其它详细页面中,从而实现自动化的AVP抽取。
KBQA的特点:
1.答案:回答的答案时知识库中的实体或实体关系,或no-answer。
而对话系统回复的是自然语言句子,有时甚至需要考虑上下文语境。
2.评价指标:召回率和精确率。
KBQA 更适合回答 what, when 等事实性问题。
DBQA 更适合回答why how 等解释性,描述性问题。
流程:
问句 -> 语义解析 -> 语义表示 -> [ 语义匹配,查询, 推理 ] <--> 知识库
问题解析:
基于语义分析的方法:首先将自然语言形式的问句转换为某种逻辑表达形式,然后查询知识库,找到问题的答案。
- lambda表达式
- 依存组合语义树
基于检索的方法:首先通过粗略的方式从知识库中获取一系列的候选答案,然后抽取候选答案问句与候选答案间的关系等方面的特征,对候选答案进行排序,选择排名靠前的作为最终的答案。