西瓜书强化学习QLearning算法与网上版本比较 - 代码天地

西瓜书强化学习QLearning算法与网上版本比较

其他 2018-09-13 04:54:17 阅读次数: 0

西瓜书上的QLearning算法与网上的版本比较：

不同点：西瓜书上的Q(x,a)就是Q表，π（x,a）就是贪婪算法选择动作的概率，这个值对应于ε。

西瓜书上的第六行的公式和另一版本的更新值公式的区别，网上版本是下一个状态的maxQ(x',a')，因为是求最大值，所以不需要西瓜书上的第五行和第七行代码，直接查找下一个状态x'的最大值得Q(x',a')，而西瓜书上的不是。西瓜书上的是利用上一步的策略，来选择动作，即第五行代码表示，决策时上一次循环的策略，应为在第七行会更新这个状态下策略的所以才是Q(x,a''),这里的a''是所以可能的动作，并且使Q(x,a'')最大。

猜你喜欢

转载自blog.csdn.net/song91425/article/details/81069118

西瓜书强化学习QLearning算法与网上版本比较

强化学习——Qlearning

强化学习--QLearning

强化学习QLearning演示

强化学习——Qlearning——value based

强化学习 Qlearning小例子

强化学习（1）-Qlearning和policygradient

用强化学习DQN算法玩合成大西瓜游戏！（提供Keras版本和Paddlepaddle版本）

强化学习之sarsa 和qlearning 实现

西瓜书《机器学习》课后答案——chapter16_强化学习

机器学习（MACHINE LEARNING）【周志华版-”西瓜书“-笔记】 DAY16-强化学习

周志华西瓜书第16章强化学习（习题答案）（转）

强化学习算法

强化学习算法：

强化学习和Q-learning在实际应用中的价值 Reinforcement learning and Qlearning fundamentals

强化学习 DQN算法

强化学习算法——TRPO

强化学习算法—DQN

强化学习算法DQN

强化学习的算法分类

强化学习算法分类

强化学习——Sarsa算法

强化学习--DDPG算法

强化学习从基础到进阶-案例与实践[3]：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

强化学习--基于值函数的强化学习算法

强化学习——基于策略梯度的强化学习算法

【回答问题】ChatGPT上线了！比较流行的强化学习算法

【强化学习】Policy Gradient算法详解

强化学习（一）——经典算法

强化学习-Q-Learning算法

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)