An empirical study of instance-based ontology matching笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- 当前首要的任务是实体的自动匹配
- 目前的实体匹配技术分为四类:基于词汇相似度的匹配、基于实体结构的匹配、基于背景知识的匹配、基于实例匹配的实体匹配。
- 本文主要研究的是基于实例匹配的实体匹配。实例匹配的主要思想就是两个概念(实体)的具体实例重叠的越多,则这两个实体关系越大。实例匹配的难点在于如何定义重叠程度。
- 本文提出的系统性方法中主要考虑衡量标准(计算两实体重叠的比例)、阈值(前面衡量标准的阈值)、层次结构(考虑实例的后嗣作为对实体的扩展)这三个维度。
- 本文提出了计算匹配程度表的系统
- 本文回答了衡量标准、阈值、层次结构如何选择才能使系统工作状态最佳的问题。
- 本文首先说明了用例情景:包含所有荷兰语印刷出版物的书籍信息集和包括荷兰历史文化语言方面的科学类书籍信息集
- 提出本文的基于实例的匹配系统的框架:
1.2 论文主要解决的问题
1.3 论文解决问题的过程
1) 给出两个实体S(source)和T(target),目标是找到一个三元组(S,T,R)其中R是S和T之间的关系,R的种类包括{≡ ,⊑,⊓,⊥}这四类(相等、属于、重叠、不相交)。
2) 实现实例的实体匹配目标主要考虑两个实体的实例集的重叠部分。
3) 基于实例的匹配嫉妒依赖实体的概念的形式,必须考虑不同形式阐述的同一概念。首要考虑的是这个概念是仅仅由它的实例集单独标注还是由它的实例集以及实例的扩展标注的。
4) 其次,考虑到现实中实例错误标注、数据分散、歧义概念等问题,计算重叠程度就十分困难,因此我们使用其他的衡量标准进行评估:即先使用其他的衡量标准计算两个实例集的相关度,随后考虑使用统计得到的阈值来排除不可靠的信息。
- 文章随后给出具体使用的其他的衡量标准:
1) Jaccard:用于衡量少量由两个概念同时标注,而这两个概念又是包含关系的实例。最终计算的是两个概念的实例集的重叠比例
2) Corrected Jaccard:在Jaccard的基础上,为了给出现次数少的实例标记较低的分数,
3) PMI:Pointwise Mutual Information,为了降低一个概念的标注需要另一个概念的标注的不确定性,N是被标记的实例数量
4) Log相似率
5) 信息获得熵
- 由于上文提到的方法需要大量标注的实例确保统计可行性,因此设置一个阈值(实例匹配个数)来丢弃范围过小的概念。此外为不同的实体相关度进行排序也能找出实体之间一对一或是一多的关系。
- 最后通过实验,验证Jaccard, corrected Jaccard, PMI, LLR, 和 IGB以及1到10的阈值哪些合适
- 数据集设置:243,886书籍信息,两两之间通过使用来自于GTT 和 Brinkman的概念进行标注。本文将标注的书籍视为进行标注的概念的实例。
- 实验方法
1.4 论文使用的实验方法
1) gold standard:使用人工标注得到gold standard
2) 平均精确度:Ni是评估得到前i个匹配的匹配实例数量,Ngoodi是其中匹配正确的数量
3) 近似召回率
4) F标准:
- 实验最终的目标是不同的衡量方法的设置在实例匹配之中扮演了怎样的角色,是否有最合适的衡量标准的组合和阈值的设置。总结就是,实验旨在回答:
1) 新插入的匹配结果如何影响最终匹配结果
2) 阈值选择的影响是什么
3) 使用扩展的概念信息有何影响
4) 基于实例的匹配的最佳衡量标准选择是什么
1.5 实验最终结果的评估
- 映射的性质对结果的影响:考虑三种关系性质:ONLYEQ(仅包括相等关系)、NOTREL(包含三种关系除了“相关”关系)、ALL(考虑所有关系除了无链接),结果发现不管是哪一种衡量标准的组合,在ONLYEQ关系下表现的最好。(因此在之后的实验中文章仅考虑ONLYEQ关系)
- 阈值选择的影响:使用阈值能提高精确度指标,单会造成召回率的损失
- 最佳衡量指标选择:JC 和 JCcorr在所有的匹配中有最高的f-measures、precision 和 recall
二、 论文创新点
基于对荷兰国家图书馆应用程序进行的大量实验,提出了基于实例的匹配的实证研究。
为基于实例的实体匹配方法比较了5种常见的基于相似度的衡量方法以及阈值和层次信息的使用,通过实验找出最佳的衡量方法的组合