【深入浅出强化学习原理入门学习笔记】4.无模型的强化学习方法-蒙特卡罗算法
无模型
再解释一下什么是无模型?无模型就是状态转移函数,回报函数不知道的情况,不知道在
的情况下,状态怎么转移,回报函数也不知道,
的转移概率未知。
在基于模型的动态规划方法中是基于模型的,包括策略迭代法和值函数迭代法,可以统一到广义策略迭代法,即先进行策略评估(计算值函数),然后基于基函数做策略改善。
蒙特卡洛方法
状态值函数和状态-行为值函数的本质是期望,之前动态规划的方法可以通过模型计算期望,在无模型的情况下,可以通过经验平均来估计期望,可以采用蒙特卡罗的方法。基本的思路就是利用蒙特卡洛反复实验,得到实验数据,计算经验平均,在经验平均的基础上进行策略评估和改善。因为是经验平均估计,因此需要保证每个状态都能被访问到,在这里介绍探索性初始化方法:
1,所有状态初始化,值函数初始化
2,随机选择一个状态,以一个策略(行动策略)选择该状态下的一个行为,得到反馈序列,对在实验中出现的每一个状态-行为对以及附属的回报,以递增平均的方式,加和到对应的状态-行为值函数中。
3,以贪心策略进行策略评估和改善(目标策略)
4,重复2,3
注意递增平均的方式为:
如果行动策略和目标策略是相同的策略,称之为同策略;否则称之为异策略,异策略中的两个策略需要满足:行动策略包含或者覆盖目标策略。
重要性采样
因为数据是行动策略产生的,对目标策略进行评估(计算值函数)时需要重要性采样。
因为对于异步策略中两个策略的分布不一样(即行动策略的轨迹概率分布和改善策略的轨迹概率分布不一样),需要使用加权重要性采样来更新值函数。
加权重要性采样【待更】
参考书籍: