文献阅读笔记（六）

An empirical study of instance-based ontology matching笔记整理

一、论文整理思路流程

1.1 论文的相关研究工作

1) 给出两个实体S（source）和T（target），目标是找到一个三元组（S,T,R）其中R是S和T之间的关系，R的种类包括{≡ ,⊑,⊓,⊥}这四类（相等、属于、重叠、不相交）。

2) 实现实例的实体匹配目标主要考虑两个实体的实例集的重叠部分。

3) 基于实例的匹配嫉妒依赖实体的概念的形式，必须考虑不同形式阐述的同一概念。首要考虑的是这个概念是仅仅由它的实例集单独标注还是由它的实例集以及实例的扩展标注的。

4) 其次，考虑到现实中实例错误标注、数据分散、歧义概念等问题，计算重叠程度就十分困难，因此我们使用其他的衡量标准进行评估：即先使用其他的衡量标准计算两个实例集的相关度，随后考虑使用统计得到的阈值来排除不可靠的信息。

1) Jaccard:用于衡量少量由两个概念同时标注，而这两个概念又是包含关系的实例。最终计算的是两个概念的实例集的重叠比例

2) Corrected Jaccard：在Jaccard的基础上，为了给出现次数少的实例标记较低的分数，

3) PMI：Pointwise Mutual Information，为了降低一个概念的标注需要另一个概念的标注的不确定性，N是被标记的实例数量

4) Log相似率

5) 信息获得熵

由于上文提到的方法需要大量标注的实例确保统计可行性，因此设置一个阈值（实例匹配个数）来丢弃范围过小的概念。此外为不同的实体相关度进行排序也能找出实体之间一对一或是一多的关系。
最后通过实验，验证Jaccard, corrected Jaccard, PMI, LLR, 和 IGB以及1到10的阈值哪些合适
数据集设置：243,886书籍信息，两两之间通过使用来自于GTT 和 Brinkman的概念进行标注。本文将标注的书籍视为进行标注的概念的实例。
实验方法

1) gold standard:使用人工标注得到gold standard

2) 平均精确度：Ni是评估得到前i个匹配的匹配实例数量，Ngoodi是其中匹配正确的数量

3) 近似召回率

4) F标准：

1) 新插入的匹配结果如何影响最终匹配结果

2) 阈值选择的影响是什么

3) 使用扩展的概念信息有何影响

4) 基于实例的匹配的最佳衡量标准选择是什么

映射的性质对结果的影响:考虑三种关系性质：ONLYEQ（仅包括相等关系）、NOTREL（包含三种关系除了“相关”关系）、ALL（考虑所有关系除了无链接），结果发现不管是哪一种衡量标准的组合，在ONLYEQ关系下表现的最好。（因此在之后的实验中文章仅考虑ONLYEQ关系）
阈值选择的影响：使用阈值能提高精确度指标，单会造成召回率的损失
最佳衡量指标选择：JC 和 JCcorr在所有的匹配中有最高的f-measures、precision 和 recall

二、论文创新点

基于对荷兰国家图书馆应用程序进行的大量实验，提出了基于实例的匹配的实证研究。

为基于实例的实体匹配方法比较了5种常见的基于相似度的衡量方法以及阈值和层次信息的使用，通过实验找出最佳的衡量方法的组合