本文是基于Sutton和Barto的强化学习书籍第二版的一些理解,难免会有偏差,有错误的地方,望指出!
原文书籍链接:http://incompleteideas.net/book/RLbook2018.pdf
0 介绍
part Ⅰ:表格型解决方法
1 多臂赌徒问题(Multi-armed Bandits)
2 有限马尔可夫决策过程(Finite Markov Decision Processes)
3 动态规划(Dynamic Programming)
4 蒙特卡罗方法(Monte Carlo Methods)
5 时间差分学习(Temporal-Di↵erence Learning)
6 n步自举法(n-step Bootstrapping)
7 带表格的规划和学习(Planning and Learning with Tabular Methods)
part Ⅱ:近似解决方法
1 带近似的on-policy预测(On-policy Prediction with Approximation)
2 带近似的on-policy控制(On-policy Control with Approximation)
3 带近似的off-policy方法(Off-policy Methods with Approximation)
4 适应度轨迹(Eligibility Traces)
5 策略梯度方法(Policy Gradient Methods)
part Ⅲ:更深层次的领域
1 心理学
2 神经科学
3 应用和案例学习
4 边界