2012 _A Similarity-Oriented RDF Graph Matching Algorithm for Ranking Linked Data笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- PageRank算法是解决了RDF图节点与边的关系的提取问题(关系抽取)从而解决查询的排序比较问题
- 由于图的同构性的存在,如SAPPER算法、wang’s算法用于RDF图匹配算法的效率问题
- 基于“对应邻接顶点也相似”的相似度算法。
1.2 论文主要解决的问题
由于先前的方法有如下的缺陷:忽略RDF图的很多特征(比如图的结构);忽视大部分的节点都被url所标记(可理解为大部分节点的属性是url)
- 通过基于语义相似度对RDF图的相似度进行衡量(由s,p,o三元素的相似度扩展到整个语句的相似度再到整个RDF图的相似度)
- 创新地提出了反映RDF图边与点(主语、宾语和谓语的关系)关系的图的结构相似度。这种相似度将一条语句的三元素作为一个整体单元并衡量这个单元在整个RDF图的重要性(加权)
- 本文提供的方法主要解决的是查询匹配问题
1.3 论文解决问题的过程
论文首先提出了相似度的层次:
- 首先计算标记的相似度(label):包括标记的字符串相似度(String Similarity)和单词相似度(Linguistic Similarity);注意针对不同类型的标记(标记是单词或是url)使用不同的方法。对于单词型的标记,字符串相似度使用Levenshtein Distance编辑距离算法计算;单词相似度使用Lin’s similarity算法计算。对于url类型的标记,将url分为三段Host(计算字符串相似度,算法同上),Path(计算单词相似度,算法同上), Fragment(计算单词相似度,算法同上)并分别计算对应的相似度。最终的url相似度是三者算数平均值。
- 然后计算三元组相似度:
- 计算结构相似度:基于相似节点对应邻接节点也相似,通过计算某些语句的上文(以该语句的s作为o的语句)和下文(以该语句的o作为s的语句)来计算结构相似度(这一相似度的计算主要针对的是一个RDF图中的语句与另一个RDF图的语句的相似度)
计算上文集的公式:先计算语句q的上文集中元素与语句p的上文集每一个语句的三元组相似度(每一个q的上文集元素都有一次循环),然后每次循环选取其中相似度最大的语句对,最终将选中的语句对相似度求和然后取均值(q的上文集有d个元素,p的上文集有k个元素)
计算下文集相似度的公式类似
最终整体的结果相似的是
- RDF图相似度:
Deg指的是某一语句的上文集和下文集元素数。
1.4 论文使用的实验方法
- 使用数据集:jena模块自带的测试数据和wordnet
- 版本信息:jena2.6;wordnet2.1;jdk1.6
1.5 实验最终结果的评估
使用5个RDF图作为测试数据,两两组合计算相似度,并且设置6组不同的参数进行实验。然后根据RDF图的相似度使用实例进行查询操作输出结果。
1.6 论文的后续工作
对相关的相似度衡量进行进一步的改进整合
二、 论文创新点
首先新考虑了RDF图的结构相似度,由此避免了之前方法的一些缺陷,提高了最终查询结果的准确度(提高了基于相似度的匹配算法的准确率)
三、 论文中使用的技术和方法
Jena的使用
图数据库的操作查询