RLAI读书笔记-第六章-Temporal-Difference - 代码天地

RLAI读书笔记-第六章-Temporal-Difference

编程语言 2018-08-29 14:38:28 阅读次数: 0

Temporal-Difference Learning
(单步 one-step)时序差分学习无模型Model-Free RL
理解如何结合 DP+MC == 在当前episode尚未结束,就进行估计当前值函数

6.1 TD Prediction
先验知识:
bootstraping 自举算法 DP=当前state value依赖于t+1时刻
V(St) = Eπ{Rt+1 + γV(St+1)}
MC 是经验平均avg:
V(St) = V(St) + α(Gt - V(St))
1. exit model可以通过动作集,计算出S的所有后继S’的状态
2. model-free MC估计=episode_avg
3. MC Gt是状态S自身直到终止状态的所有返回值

结合以上两者:
TD (one-step单步)
V(St+1)也是估计值(如何计算出来的呢？？)
V(St) <== V(St) + α * {Rt+1 + γ*V(St+1) -V(st)}

6.3 Optimality TD
1.TD均方误差 < MC(模拟avg)均方误差
2.step-size不是非常小的话,TD可能在某一区间震荡而不收敛

6.4 Sarsa: On-policy TD Control
公式 P151
例如:e-greedy 对于State有固定的政策选择Action
行动策略,评估策略都是E-greedy

6.5 QLearnign: off-policy TD Control
公式P153
1.行动策略是 E-greedy
目标策略是贪婪策略(选择max value的S’)
2.Qlearning Maximizaiton Bias

6.7 Double QLearning
目的: 解决Qlearning Maximizaiton Bias问题 example P156
P158 公式

总结
TD n-step https://zhuanlan.zhihu.com/p/25913410

MC TD对比:
https://zhuanlan.zhihu.com/p/28107168

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82118537

RLAI读书笔记-第六章-Temporal-Difference

强化学习（RLAI）读书笔记第六章差分学习（TD-learning）

JavaScript读书笔记第六章

《锋利的JQuery》读书笔记——第六章

《deep learning》读书笔记------第六章

《图解HTTP》读书笔记——第六章

《文明之光》第六章读书笔记

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

【读书笔记】《面向模式的软件架构》卷一：模式系统第六章

《分布式java应用》读书笔记--第六章

读书笔记-《机器学习》第六章：支持向量机

C——《C和指针》第六章读书笔记

长尾理论读书笔记：第六章新市场

推荐系统实践读书笔记-第六章

【读书笔记】细读《JavaScript权威指南》（第六章：对象）

《Google C++编码规范》读书笔记第六章：命名约定

《deep learning for cv with python practical bundle》第六章读书笔记

深入理解java虚拟机第六章读书笔记

Java疯狂讲义读书笔记第六章（二）

Java疯狂讲义读书笔记第六章（一）

Java编程思想读书笔记——第六章：访问权限控制

《linux命令行大全》读书笔记第六章重定向

MySQL5.7从入门到精通--------第六章读书笔记

读书笔记：LearningPython第五版（★第六章动态类型）

java编程的逻辑读书笔记——第六章

HTTP图解读书笔记（第六章 HTTP首部）实体首部字段

HTTP图解读书笔记（第六章 HTTP首部）响应首部字段

HTTP图解读书笔记（第六章 HTTP首部）请求首部字段

HTTP图解读书笔记（第六章 HTTP首部）通用首部字段

HTTP图解读书笔记（第六章 HTTP首部）首部字段

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)