西瓜书强化学习QLearning算法与网上版本比较

西瓜书上的QLearning算法与网上的版本比较:

      不同点:西瓜书上的Q(x,a)就是Q表,π(x,a)就是贪婪算法选择动作的概率,这个值对应于ε。

       西瓜书上的第六行的公式和另一版本的更新值公式的区别,网上版本是下一个状态的maxQ(x',a'), 因为是求最大值,所以不需要西瓜书上的第五行和第七行代码,直接查找下一个状态x'的最大值得Q(x',a'),而西瓜书上的不是。 西瓜书上的是利用上一步的策略,来选择动作, 即第五行代码表示,决策时上一次循环的策略,应为在第七行会更新这个状态下策略的所以才是Q(x,a''),这里的a''是所以可能的动作,并且使Q(x,a'')最大。

 

猜你喜欢

转载自blog.csdn.net/song91425/article/details/81069118