一、基本信息

论文题目：《Empirical Analysis of Predictive Algorithms for Collaborative Filtering》

发表时间：UAI 1998

论文作者及单位：

论文地址：https://dl.acm.org/citation.cfm?id=2074100

二、摘要

协同过滤使用有关用户偏好的数据库来预测新用户可能喜欢的其他主题或产品。本文描述了为这项任务设计的几种算法，包括基于相关系数的技术、基于向量的相似性计算和统计贝叶斯方法。在一组具有代表性的问题域中，我们比较了各种方法的预测精度。我们使用两种基本的评估指标。第一个评估指标是用平均绝对偏差来表示一组单独预测的准确性。第二个估计指标与推荐项目的排序列表的效用相匹配。此种度量方法主要估计用户在有序列表中看到推荐物品的概率。
随后，我们对与3个应用领域、4个测试相关的数据集进行了实验，并对各种算法进行了2次评估。结果表明，在广泛的条件下，每个节点都有决策树的贝叶斯网络和相关方法优于贝叶斯聚类和向量相似方法。在相关网络和贝叶斯网络之间，首选方法取决于数据集的性质、应用程序的性质（对一个一个的表示进行排序），以及用于进行预测的投票的可用性。其他考虑因素包括数据库的大小、预测的速度和学习时间。

三、论文的主要内容与工作

自协同过滤的思想被提出以来，基于协同过滤的推荐系统取得了很大的进展，产生了多种不同的实现协同过滤的算法。本片文章旨在评估现有几种不同协同过滤算法的推荐的精确度和质量。比较的协同过滤算法包括以前提出的基于相关系数的算法，以及基于学习贝叶斯模型的算法。

1、memory-based协同过滤中评分的预测方法、用户相似度的度量方法。

2、对memory-based协同过滤方法进行的一些改进。这些改进包括默认投票（default volting，在用户没有评分的物品上按照一定规则给出分数）、倒转用户频率（Inverse User Frequency，考虑到在一些大众的物品上评分相似并不能很好代表两用户偏好相似，在小众物品上评分相似更具有参考意义）、例子放大（Case Amplification，增强相似用户的权重，减少不相似用户的权重）。

3、Model-Based 方法主要采用概率的方法来预测用户对物品的评分，本文主要介绍了其中的聚类模型和贝叶斯网络模型。

4、在数据集上对以上方法进行了实验，并比较了各个方法的性能。其中实验部分是本文的闪光点，对后来的研究具有重要启示意义。

5、对各个方法测试的结果表明，贝叶斯网络方法在大部分情况下性能优于其他方法，Inverse User Frequency 、Case amplification两种改进均取得了显著的效果，此外集成模型通常比树模型表现更好。

6、如果考虑到整体协同过滤预测表示的大小，基于memory的方法需要一个相对较小的算法代码库，加上一个用户投票样本组成的用户数据库。基于model的方法需要表示贝叶斯网络模型，通常具有更小的内存需求。在运行时性能方面，基于model的概率方法的生成记录的速度大约是基于memory的方法的4倍，

四、结论

针对协同过滤推荐系统中不同算法的性能，本文提出了一套实验。结果表明，在一般条件下，每个节点都有决策树的贝叶斯网络和相关方法优于贝叶斯聚类和向量相似方法。在correlation和Bayesian网络之间，首选方法取决于数据集的性质、应用程序的性质（逐次排列或逐次呈现），以及用于进行预测的投票的可用性。我们看到，当评分数相对较少时，相关网络和贝叶斯网络比其他技术的优势更小。

其他考虑因素包括数据库的大小、预测的速度和学习时间。与基于memory的技术（如相关性）相比，贝叶斯网络通常具有更小的内存需求和更快的预测速度。然而，这里所研究的贝叶斯方法需要一个学习阶段，这个阶段可能需要花费几个小时，并且在行为改变反映在建议中之前会导致延迟。
我们计划通过irvine数据集将本研究中使用的MS Web数据提供给学习社区。如前所述，目前可获得EachMovie的数据。我们希望，这些数据的可用性以及本文所引发的讨论将对协同过滤算法进行进一步的检查和改进。

论文笔记：Empirical Analysis of Predictive Algorithms for Collaborative Filtering

一、基本信息

猜你喜欢