【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

【深入浅出强化学习原理入门学习笔记】4.无模型的强化学习方法-蒙特卡罗算法

无模型

再解释一下什么是无模型？无模型就是状态转移函数，回报函数不知道的情况，不知道在 $(s,a)$ 的情况下，状态怎么转移，回报函数也不知道， $\pi (s_{t+1} | s_t, a_t)$ 的转移概率未知。
在基于模型的动态规划方法中是基于模型的，包括策略迭代法和值函数迭代法，可以统一到广义策略迭代法，即先进行策略评估（计算值函数），然后基于基函数做策略改善。

蒙特卡洛方法

状态值函数和状态-行为值函数的本质是期望，之前动态规划的方法可以通过模型计算期望，在无模型的情况下，可以通过经验平均来估计期望，可以采用蒙特卡罗的方法。基本的思路就是利用蒙特卡洛反复实验，得到实验数据，计算经验平均，在经验平均的基础上进行策略评估和改善。因为是经验平均估计，因此需要保证每个状态都能被访问到，在这里介绍探索性初始化方法：
1，所有状态初始化，值函数初始化
2，随机选择一个状态，以一个策略（行动策略）选择该状态下的一个行为，得到反馈序列，对在实验中出现的每一个状态-行为对以及附属的回报，以递增平均的方式，加和到对应的状态-行为值函数中。
3，以贪心策略进行策略评估和改善（目标策略）
4，重复2，3

注意递增平均的方式为： $v_k(s)=v_{k-1}(s)+\frac{1}{k}(G_k(s)-V_{k-1})$
如果行动策略和目标策略是相同的策略，称之为同策略；否则称之为异策略，异策略中的两个策略需要满足：行动策略包含或者覆盖目标策略。

重要性采样

因为数据是行动策略产生的，对目标策略进行评估（计算值函数）时需要重要性采样。

因为对于异步策略中两个策略的分布不一样（即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样），需要使用加权重要性采样来更新值函数。

加权重要性采样【待更】

参考书籍：

深入浅出强化学习原理入门

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

猜你喜欢