推荐算法之用户行为分析

一、分析用户行为的必要性

用户行为分析是很多算法设计的基础,早期的如统计热门排序,虽然操作简单但是很受大多数用户的喜欢,因为这可以很容易节省用户发现自己喜爱事物的时间。后来的如推荐算法是对用户行为更加深层次的分析,可以给用户带来更好的体验。

二、用户分析的种类

根据用户行为分析的角度不同可以根据分为四类,其中根据反馈的明确性可以分为显性反馈和隐性反馈,而根据反馈的方向可以分为正反馈和负反馈。

  显性反馈 隐性反馈
正反馈 A C
负反馈 B D

其中显性反馈表示用户明确自己喜好,如对某个电影评高分,隐性反馈表示用户不明确自己喜好,如购买体育杂志隐式地表达用户喜欢体育的行为。正反馈就是用户喜欢行为,负反馈就是用户不喜欢行为。

上表格中

A:明确表达自己喜欢某件事物的行为

B:明确表达自己不喜欢某件事物的行为

C:隐性表达自己喜欢某件事物行为;

D:隐性表达自己不喜欢某件事物行为;

三、如何去描述用户行为

1、在互联网中大多数情况下用一个标准去衡量用户行为比较困难,但是通常情况下可以用以下几种维度去描述用户行为

user_id 产生行为的用户唯一标识
item_id 产生行为对象的唯一标识
behavior_type 行为种类如购买、浏览、点击
context 产生行为上下文,如时间、地点
behavior_weight 行为权重即描述行为特征的量化值如光看时长
behavior_context 行为内容,如评论、打分

当然表格中描述行为的字段是可以根据自己需求而变化的,少几个字段或者添加几个字段都是可以的,没有标准的答案只有最适合的自己分析的。

2、在互联网领域,经过研究人员大量的研究发现用户的行为数据存在着普遍的规律,这些规律满足长尾分布

                                 f(x)=\alpha x^{k}

什么是长尾分布,长尾分布我的理解就是出现频率越多的事物其种类就越少,如英语单词中大部分的词频其实很低,经常使用的单词是极少数。

其实在用户行为数据中也存在长尾分布,其可以用用户活跃度和物品流行度来表示。

用户活跃度 用户产生过行为的物品总数
物品流行度 对物品产生过行为的用户数

下图为研究人员描述物品流行度的分布图,其中横坐标为物品物品流行度,纵坐标为流行度对应的物品总数,从图中可以看出流行度越高的物品其总数就越少,这很好的描述了购物网站中受欢迎的商品占总商品的少部分,大部分商品都是没得到关注。

下图是描述用户活跃度的分布图,其中横坐标为用户活跃度,纵坐标为活跃度对应人的总数,从图中也可以得到活跃度越高其总数就越好,这很好的描述了在网站的会员群体中活跃的人数总是少部分的,大部分都是较为沉寂的会员。

用户活跃度与物品欢迎度的关系可以用下图看出来

从图中可以看出,对用活跃度越高的用户其越有机会能够接触到那些欢迎度不高的物品,对于活跃度较低的用户如新客户或者沉寂客户其更倾向于关注欢迎度较高的物品,这项研究可以给如何更好的推荐商品提供思路。

发布了2 篇原创文章 · 获赞 5 · 访问量 53

猜你喜欢

转载自blog.csdn.net/muxiangqiang159753/article/details/104804042