强化学习中的动态规划三种算法Iterative Policy Evaluation, Policy Iteration, Value Iteration
其他
2020-06-19 06:12:21
阅读次数: 0
迭代策略评估(Iterative Policy Evaluation)
- 解决的是 Prediction 问题,使用了贝尔曼期望方程(Bellman Expectation Equation),每次迭代的策略都是一样的,比如都是每个action可能性一样
策略迭代(Policy Iteration)
- 解决的是 Control 问题,实质是在迭代策略评估之后加一个选择 Policy 的过程,使用的是贝尔曼期望方程和贪心算法
价值迭代(Value Iteration)
- 解决的是 Control 问题,它并没有直接计算策略(Policy),而是在得到最优的基于策略的价值函数之后推导出最优的 Policy,使用的是贝尔曼最优化方程(Bellman Optimality Equation)
转载自blog.csdn.net/Xurui_Luo/article/details/106711790