标签都是一些短文本,计算机无法直接使用,需将标签转化为计算机可识别的语言,对所有标签进行归一化计算,这就涉及到了标签的打分机制。
一般,标签打分规则主要考虑因素如下:
- 内容权重限定打分范围。标签内容本身的都有一个自带权重,用户浏览、搜索、收藏、下单、购买等不同行为对用户而言有着不同的重要性,该权重值一般由运营人员或业务来决定,并且取值要有一个固定区间,不能随意变化。
- 时间衰减因子。一般情况下,用户的某个行为对用户画像的影响会随着时间进行衰减,考虑采用牛顿冷却定律。例如:某个某用户5个月前浏览了某款珠宝,但是最近再没看过珠宝。显然,对此用户进行打标签时,我们不能直接给此用户打上“喜欢珠宝”的标签,“5个月前浏览了某款珠宝”这个行为分值就应该随时间降低。
- 每天标签数量衰减系数。考虑到用户某一天内对某一标签的集中行为有可能会拉偏此用户的兴趣点,因此添加了标签数量的衰减,可采用TF-IDF计算标签权重。例如:某用户某一天内突然看了5场电影,如果不加特殊处理,就给此用户打上“喜欢看电影”的标签,显然会偏离此用户的本来的兴趣点,因此,我们需要降低“突然看了5场电影”的行为数量对用户打标签的影响。
转换为公式:
标签权重=时间衰减因子×每天标签数量衰减系数×内容权重
参考:
- 牛顿冷却定律公式:t=初始温度×exp(-冷却系数×间隔的时间),实际应用中,初始温度为1就行,间隔的时间为今天与产生行为那天的天数,或者小时数都行,根据业务进行调整,冷却系数的业务来决定,或者通过数据分析而来。(具体参考牛顿冷却定律(Newton's law of cooling) - 知乎 (zhihu.com)以及基于牛顿冷却定律的时间衰减函数模型_大数据学习的技术博客_51CTO博客)
- TF-IDF计算标签权重:tf为某标签在该用户出现频率,idf为某标签在全部标签中的稀缺程度。