1 基于值函数的方法
动态规划是 model-based 方法,MC 和 TD 都是 model-free 方法。
Dynamic Programming (动态规划)
Temporal-Difference Learning (时序差分学习)
Monte-Carlo Reinforcement Learning (蒙特卡洛方法)
sarsa
q-learning
2 基于策略梯度的方法
又称 直接策略搜索方法。
TRPO
动态规划是 model-based 方法,MC 和 TD 都是 model-free 方法。
Dynamic Programming (动态规划)
Temporal-Difference Learning (时序差分学习)
Monte-Carlo Reinforcement Learning (蒙特卡洛方法)
sarsa
q-learning
又称 直接策略搜索方法。
TRPO