强化学习用在推荐和搜索领域的文献调研 - 代码天地

强化学习用在推荐和搜索领域的文献调研

其他 2019-01-31 16:54:39 阅读次数: 0

强化学习

我在机器学习读书会的分享ppt，关于DP、MC、TD方法：

https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q

推荐

强化学习在阿里的技术演进与业务创新

https://www.jiqizhixin.com/articles/2018-02-06-3

强化学习在淘宝锦囊推荐系统中的应用

细化搜索的关键词卡片

状态：

用户：性别，年龄，购买力，偏好，当前的行为，page_id，查看/点击的商品特征

Query：类型，此类型下的用户整体偏好

动作：

锦囊：类型（>2万种）

回报：

R1 = is_click * (1 + alpha * exp{-page_num})

R2 = is_click * exp{-item_click_this_user_per_recent_100_pv)

R = r1 + beta * r2

算法：

value_based：DQN

搜索：

Reinforcement Learning to Rank with Markov Decision Process

http://www.bigdatalab.ac.cn/~junxu/publications/SIGIR2017_RL_L2R.pdf

State:

Rank pos, cand doc set

(t, {D_t})

Action(s_t):

a_t = d_idx(a_t) from {D_t}

Trans(S,A):

(t, {D_t}) -> (t+1, {D_t}\d_idx(a_t))

Reward(S,A):

R(s_t, a_t) =

2^y_idx(a_t) - 1 for t=0;

(2^y_idx(a_t) - 1) / log_2(t+1) for t>0

Policy(a|s):

exp{w^T d_idx(a_t)} / sum_{a in A(s_t)} exp{w^T d_idx(a_t)}

Learning：

Policy gradient

猜你喜欢

转载自www.cnblogs.com/yaoyaohust/p/10342535.html

强化学习用在推荐和搜索领域的文献调研

强化学习入门推荐的一些文献

对话系统论文集（16）- GAN+逆强化学习用在文本生成

强化学习RL应用在youtube推荐系统 2019谷歌论文解读

强化学习教学推荐

强化学习【RL】推荐

强化学习用于流体形状生成

Udacity强化学习系列（一）——什么是强化学习，强化学习用来解决什么问题

深度学习在搜索和推荐领域的应用

使用强化学习完成迷宫搜索

使用强化学习的神经架构搜索

基于强化学习的自动搜索

强化学习了解强化学习的目标和回报

深度强化学习在机器人领域的研究和应用

深度学习实战62-强化学习在简单游戏领域的应用，利用强化学习训练Agent程序的代码和步骤

DNN结构构建：NAS网络结构搜索和强化学习、迁移学习

深度学习和强化学习的关系

机器学习和强化学习--note

深度学习和强化学习的区别

使用强化学习和YOLOFlow实现基于自主无人机的目标搜索、跟踪

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

推荐系统遇上深度学习(十五)--强化学习介绍

【强化学习】入门和资料

随机游走和强化学习

强化学习（1）-Qlearning和policygradient

深度强化学习总结和理解

强化学习的state和observation

强化学习笔记：DQN和DDQN

通用场和强化学习RL

【强化学习】强化学习分类

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)