李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea） - 代码天地

李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea）

企业开发 2023-07-01 07:47:38 阅读次数: 0

李宏毅深度强化学习(国语)课程(2018)

李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

Q-learning是基于值函数的方法，并不是learn的policy，而是learn的critic，critic并不直接采取行为，而是评价现在的行为有多好，或者多不好。

两种衡量 $V^{\pi }(s)$ 的方法，一种是Monte-Carlo（MC）方法，一种是Temporal-difference（TD）方法。

Monte-Carlo方法，让actor去和环境做互动，给critic看。critic估测，当前的状态s接下来的cumulated reward会有多大。但实际操作上，不可能把所有的state通通都扫过，所以 $V^{\pi }(s)$ 通常是一个network，对于一个network来说，就算是一个state从来没有看过，也可以估测出一个value的值。

训练这个network的时候，就是(sa,Ga)，(sb,Gb)，希望Ga与 $V^{\pi }(s_{a})$ 越近越好，Gb与 $V^{\pi }(s_{b})$ 越近越好。

MC方法需要玩到游戏结束，才能update network。TD基于下式计算，不需要将游戏玩到底。按照 $V^{\pi }(s_{t})-V^{\pi }(s_{t+1})$ 与 $r_{t}$ 越接近越好的loss 训练下去。

MC与TD方法对比，TD方法比较常用。

举例说明

介绍另外一种critic，当action无法穷举，使用左图。

虽然表面上learn一个Q function，来评估一个actor π的好坏，但是，实际上有了这个Q function，我们就可以做reainforcement learning。

假设有一个初始的actor π，用π跟环境互动，collect data，然后learn 一个actor π的Q value。

learn 出一个Q function以后，下面介绍一个方法，可以找到一个新的policy π＇，要比原来的policy π要好，以下定义了什么是“好”。其实，π＇是依赖于π的，没有具体的参数。注意：下式适合离散动作，后面解决连续动作问题。

证明新的policy π＇，要比原来的policy π要好。

技巧1：target network

技巧2：Exploration

如果每个动作没有采取过，那么估出来的动作是不准确的，所以需要探索。

技巧3：Replay Buffer

Batch里面是不同的policy的采样，data越divergence越好。这里experience是不是来自于同一个policy π并没有关系，只是用来估测值。

Q-learning算法流程：

猜你喜欢

转载自blog.csdn.net/qq_22749225/article/details/125499302

李宏毅深度强化学习(国语)课程(2018) 笔记（三）Q-learning （Basic Idea）

【李宏毅深度强化学习2018】P3 Q-learning（Basic Idea）

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

【李宏毅深度强化学习笔记】3、深度强化学习算法 Q-learning（Basic Idea）

李宏毅深度强化学习(国语)课程(2018) 笔记（五）Q-learning （Continuous Action）

李宏毅深度强化学习(国语)课程(2018) 笔记（四）Q-learning （Advanced Tips）

李宏毅深度强化学习(国语)课程(2018) 笔记（八）Imitation Learning

李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）

李宏毅深度强化学习(国语)课程(2018) 笔记（一）Policy Gradient （Review）

李宏毅深度强化学习(国语)课程(2018) 笔记（六）Actor-Critic

李宏毅深度强化学习(国语)课程(2018) 笔记（七）Sparce Reward

机器学习：李宏毅深度强化学习笔记（二）Q-Learning

【深度强化学习一】Q-Learning初识（1）（李宏毅老师学习视频笔记）

【李宏毅深度强化学习笔记】4、Q-learning更高阶的tip (Advanced Tips)

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

强化学习笔记：Q-learning

Q-learning学习笔记

【李宏毅-强化学习笔记】一、深度强化学习surface

【强化学习】python 实现 q-learning 例三

强化学习-Q-learning学习笔记

机器学习：李宏毅深度强化学习笔记（五）Imitation Learning

【李宏毅深度强化学习笔记】8、Imitation Learning

【李宏毅-强化学习笔记】p3-p5、Q_learning

机器学习：李宏毅深度强化学习笔记（三）Actor-Critic

【李宏毅深度强化学习笔记】1、深度强化学习算法策略梯度方法（Policy Gradient）

【李宏毅深度强化学习笔记】2、深度强化学习算法 Proximal Policy Optimization算法(PPO)

深度学习课程笔记（十）Q-learning (Continuous Action)

机器学习：李宏毅深度强化学习笔记（四）Sparse Reward

【李宏毅深度强化学习笔记】7、Sparse Reward

Reinforcement Learning学习笔记|Q-learning算法

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)