接下来问题就是如何找到更好的策略了,找到更好的策略以后,然后带入该策略,再次进行迭代策略评估,这个过程不断循环得到最优策略。具体过程如下
策略评估获得了一个策略并产生值函数,然后我们使用该值函数和策略完善的方法,获得一个潜在完善的新策略,然后带入新策略再次进行策略评估,然后进行策略完善,不断重复,直到收敛于最优策略。
那么我们知道值函数以后如何求得更好地策略呢?
第一步,将状态值函数转化为动作值函数
第二步,选取最大动作值函数的动作
算法伪代码如下图表示
接下来问题就是如何找到更好的策略了,找到更好的策略以后,然后带入该策略,再次进行迭代策略评估,这个过程不断循环得到最优策略。具体过程如下
策略评估获得了一个策略并产生值函数,然后我们使用该值函数和策略完善的方法,获得一个潜在完善的新策略,然后带入新策略再次进行策略评估,然后进行策略完善,不断重复,直到收敛于最优策略。
那么我们知道值函数以后如何求得更好地策略呢?
第一步,将状态值函数转化为动作值函数
第二步,选取最大动作值函数的动作
算法伪代码如下图表示