知识图谱的本质是语义网络。
语义网络:包含实体、概念以及实体与概念之间各种各样的语义关系。
实体:“能够独立存在的,作为一切属性的基础和万物本原的东西”。实体是属性赖以存在的基础,必须是自在的,也就是独立的、不依附于其他东西而存在的。
概念:又称之为类、类别。
语义关联:实体之间、概念之间、实体与概念之间。
实体之间:
概念之间:子类关系(subclassOf)
实体与概念之间:实例关系(instanceOf)
DKG与GKG的关系和区别
领域应用所涉及的知识体系越是封闭,越容易成功。
为何需要符号化表示的知识图谱?
知识表示其实一直以来都有两种基本的方式:符号化表示与数值型表示。
分布式表示是将符号知识集成到深度学习框架中的一种基本方式。符号化表示是一种显性的表示,而分布式表示是一种隐性的表示。符号化表示易理解、可解释,而分布式表示是难解释、难理解的。符号化表示的另一优点在于推理能力。
领域知识图谱系统的生命周期包含四个重要环节:知识表示、知识获取、知识管理与知识应用。
知识表示只提供机器认知的基本骨架,还要通过知识获取环节来充实大量知识实例。
在整个生命周期中,最重要的是明确知识的应用场景,也就是回答清楚一个问题:利用领域知识解决怎样的应用问题。再根据应用来反推到底需要怎样的知识表示,明确知识边界。
DKG中知识如何表示?
常用三元组表示领域知识图谱。知识图谱只能表达一些简单的关联事实,但很多领域应用的需求已经远远超出了三元组所能表达的简单关联事实,实际应用日益对于利用更加多元的知识表示丰富和增强知识图谱的语义表达能力提出了需求。
从时空维度拓展知识表示对很多特定领域具有较强的现实意义。
知识图谱时空维度拓展在物理实现上可以通过定义四元组或者五元组加以实现。跨媒体表示可以通过定义相关的属性加以实现。
领域知识图谱的应用落脚点
搜索、推荐、问答、解释、决策。
命名实体识别 NER
传统做法:构造实体字典,遍历句子进行正则匹配,常用的算法包括最大向前匹配、最大向后匹配,双向最大匹配。
最大向前匹配
1.从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
2.查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
最大向后匹配
1.从右向左取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
2.查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。
双向最大匹配
1.将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。
2.启发式规则:
2.1.如果正反向分词结果词数不同,则取分词数量较少的那个。
2.2.如果分词结果词数相同 a.分词结果相同,就说明没有歧义,可返回任意一个。 b.分词结果不同,返回其中单字较少的那个。
知识图谱的一个常用场景是问答系统。
AC算法(Aho-Corasick)是一种字符串搜索算法