知识融合Konwledge Fusion
目标:融合各层面的知识
合并两个知识图谱(本体),需要确认:
1、等价实例sameAs
2、等价类、子类subClassOf
3、等价属性、子属性subPropertyOf
同一实体来源于不同知识库,KG的构建经常需要融合多种不同来源的数据
实体对齐是知识图谱融合的主要工作
KG中可以复用其他KG中的标签
跨语言知识融合
知识在线融合
Google Konwledge Vault
主要挑战:数据质量的挑战/数据规模的挑战
知识融合竞赛:OAEI本体对齐竞赛
知识融合的基本技术流程
本体对齐+实体匹配
数据预处理->分块->负载均衡->记录链接->结果评估->结果输出
一、数据预处理:
语法正规化
数据正规化(缩进/转义符/正式名....)
二、记录链接:
1、属性相似度
1)编辑距离:
Levenshtein distance最小编辑距离
用最少的编辑操作将一个字符串转换成另一个
是典型的动态规划问题
D(i,j)=min[D(i-1,j)+1.D(i,j-1)+1,D(i-1,j-1)+1]
Edit Distance with affine gaps
Dice系数用于度量两个集合的相似性
Jaccard系数适合处理短文本的相似度
2)基于向量的相似度
TF-IDF评估某个字或某个词对一个文档的重要程度
2、实体相似度
1)聚合:加权平均/手动指定规则/分类器
2)聚类:
层次聚类(SL算法/CL算法/AL算法)
相关性聚类(最大留,最小割)
Canopy(分块)+K-means
桥梁:预连接实体对(训练数据):联合知识嵌入,双向监督训练
三、分块:
Falcon-AO
基于hash函数的分块
常用hash函数:
first n-grams
n-grams
集合多个简单的hash函数
邻近分块
Canopy聚类
四、负载均衡
保证所有块中数量相当
五、结果评估
准确率、召回率、F值、运行时间
典型知识融合工具简介
本体对齐:Falcon-AO
四类匹配算法:V-Doc虚拟文档/GMO比如难题RDF图结构匹配/I-Sub编辑距离的字符串匹配/PBM分治的大本体匹配
实体匹配:Dedupe
指定谓词集合和相似度函数
训练Blocking:通过Red-Blue set cover 找到最优谓词集合来分块
实体匹配:Limes
基于度量空间的实体匹配发现框架
实体匹配:Silk