【推荐系统论文】推荐系统的监督优势 Actor-Critic

企业开发 2023-04-08 09:26:33 阅读次数: 0

文章标题：Supervised Advantage Actor-Critic for
Recommender Systems
发表时间：2022

摘要

通过奖励信号将基于会话或顺序的推荐作为强化学习 (RL) 是朝着最大化累积利润的推荐系统 (RS) 的一个有前途的研究方向。然而，由于策略外训练、巨大的动作空间和缺乏足够的奖励信号等挑战，在 RS 设置中直接使用 RL 算法是不切实际的。最近用于 RS 的 RL 方法试图通过将 RL 和（自）监督顺序学习相结合来应对这些挑战，但仍然存在一定的局限性。例如，由于缺乏负奖励信号，Q 值的估计倾向于偏向正值。此外，Q 值还很大程度上取决于序列的特定时间戳。
为了解决上述问题，我们提出了用于训练 RL 组件的负采样策略，并将其与监督顺序学习相结合。我们将此方法称为监督负 Q 学习 (SNQN)。基于采样（消极）动作（项目），我们可以计算积极动作相对于平均情况的“优势”，这可以进一步用作学习监督顺序部分的归一化权重。这导致了另一个学习框架：监督优势演员评论家（SA2C）。我们用四个最先进的顺序推荐模型实例化 SNQN 和 SA2C，并在两个真实世界的数据集上进行实验。实验结果表明，所提出的方法比最先进的监督方法和现有的自监督强化学习方法取得了显着更好的性能。代码将开源。

猜你喜欢

转载自blog.csdn.net/qq_43058281/article/details/127059813

【推荐系统论文】推荐系统的监督优势 Actor-Critic

A3C(Asynchronous advantage actor-critic )/异步优势actor-critic 算法

系统学习深度学习（三十六）--Actor-Critic

论文速读：《AN ACTOR-CRITIC ALGORITHM FOR SEQUENCE PREDICTION》

Advantage Actor-Critic优势演员-评论员（A2C）

《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读

理解actor-critic

actor-critic 算法学习笔记

强化学习--Actor-Critic

《深度解读Soft Actor-Critic 算法》

【强化学习】Actor-Critic

actor-critic 相关算法简述

强化学习中的 AC（Actor-Critic）、A2C（Advantage Actor-Critic）和A3C（Asynchronous Advantage Actor-Critic）算法

【强化学习】Actor-Critic算法详解

【小白笔记】Real-time ‘Actor-Critic’ Tracking

[cs294-112 notes] lecture 6 actor-critic

Keras深度强化学习--Actor-Critic实现

8. Actor-Critic、DDPG、A3C

SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY翻译

怎样理解Actor-Critic与Policy Gradient之间的关系

深度强化学习——actor-critic算法(4)

强化学习：Actor-Critic (AC)算法

强化学习DRL--策略学习（Actor-Critic）

（4）深度强化学习基础：Actor-Critic

（5）Advantage Actor-Critic (A2C)

【强化学习】13 —— Actor-Critic 算法

强化学习：Actor-Critic、SPG、DDPG、MADDPG

【强化学习】18 —— SAC（ Soft Actor-Critic）

深度增强学习（DRL）漫谈 - 从AC（Actor-Critic）到A3C（Asynchronous Advantage Actor-Critic）

Soft Actor Critic算法论文公式详解

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)