总结和转载大佬们的文章,记录个人学习笔记,感谢大家!
1.贝尔曼方程
链接: 贝尔曼方程
2.动态规划-策略迭代与值迭代
链接: 策略迭代与值迭代1
链接: 策略迭代与值迭代2
链接: 策略迭代与值迭代3
3.蒙特卡洛方法
链接: 蒙特卡洛方法
4.Sarsa和Q-Learning
链接: Sarsa和Q-Learning
5.PPO算法/DQN算法/A3C算法
链接: 强化学习实战
6.策略梯度
链接: 策略梯度
7.MCPT和POMCP
链接: MCPT和POMCP1
链接: MCPT和POMCP2
链接: MCPT和POMCP3
链接: MCPT和POMCP4
8.规划与学习-算力聚焦
链接: 规划与学习-算力聚焦1
链接: 规划与学习-算力聚焦2
9.重要性采样(Importance Sampling)
链接: 重要性采样
10.ε-greedy & UCB
链接: ε-greedy & UCB
11.离线强化学习:
链接: 离线强化学习(OfflineRL)总结