【推荐系统论文】推荐系统的监督优势 Actor-Critic

  • 文章标题:Supervised Advantage Actor-Critic for
    Recommender Systems
  • 发表时间:2022

摘要

  • 通过奖励信号将基于会话或顺序的推荐作为强化学习 (RL) 是朝着最大化累积利润的推荐系统 (RS) 的一个有前途的研究方向。 然而,由于策略外训练、巨大的动作空间和缺乏足够的奖励信号等挑战,在 RS 设置中直接使用 RL 算法是不切实际的。 最近用于 RS 的 RL 方法试图通过将 RL 和(自)监督顺序学习相结合来应对这些挑战,但仍然存在一定的局限性。 例如,由于缺乏负奖励信号,Q 值的估计倾向于偏向正值。 此外,Q 值还很大程度上取决于序列的特定时间戳。
  • 为了解决上述问题,我们提出了用于训练 RL 组件的负采样策略,并将其与监督顺序学习相结合。 我们将此方法称为监督负 Q 学习 (SNQN)。 基于采样(消极)动作(项目),我们可以计算积极动作相对于平均情况的“优势”,这可以进一步用作学习监督顺序部分的归一化权重。 这导致了另一个学习框架:监督优势演员评论家(SA2C)。 我们用四个最先进的顺序推荐模型实例化 SNQN 和 SA2C,并在两个真实世界的数据集上进行实验。 实验结果表明,所提出的方法比最先进的监督方法和现有的自监督强化学习方法取得了显着更好的性能。 代码将开源。

猜你喜欢

转载自blog.csdn.net/qq_43058281/article/details/127059813