《Playing Atari with Deep Reinforcement Learning 》 论文阅读笔记和分析(DQN 2013版)

DL难以应用于RL的原因

  1. 标签:DL需要大量标签好的训练集,而RL在一个具有延迟性、噪声、稀疏性的标量reward signal中学习。这种延迟存在于action 和其reward之中,使得难以建立出类似监督学习中输入与目标的直接关联
  2. 相关性:DL中的样本数据之间是不互相影响的,而RL 的state序列是高度相关性的(因此导致其样本也是高度相关性的)。
  3. 概率分布:DL中的数据分布概率是固定的,而RL中的数据分布概率随着学习的策略而改变。

猜你喜欢

转载自blog.csdn.net/linyijiong/article/details/81269749