【转载】强化学习（五）用时序差分法（TD）求解

其他 2019-04-07 10:48:01 阅读次数: 0

原文地址：

https://www.cnblogs.com/pinard/p/9529828.html

--------------------------------------------------------------------------------------------------

在强化学习（四）用蒙特卡罗法（MC）求解中，我们讲到了使用蒙特卡罗法来求解强化学习问题的方法，虽然蒙特卡罗法很灵活，不需要环境的状态转化概率模型，但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列，那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法：时序差分(Temporal-Difference, TD)。

扫描二维码关注公众号，回复： 5801368 查看本文章

　　　　时序差分这一篇对应Sutton书的第六章部分和UCL强化学习课程的第四讲部分，第五讲部分。

1. 时序差分TD简介

时序差分法和蒙特卡罗法类似，都是不基于模型的强化学习问题求解方法。所以在上一篇定义的不基于模型的强化学习控制问题和预测问题的定义，在这里仍然适用。

猜你喜欢

转载自www.cnblogs.com/devilmaycry812839668/p/10664208.html

【转载】强化学习（五）用时序差分法（TD）求解

【转载】强化学习（六）时序差分在线控制算法SARSA 强化学习（五）用时序差分法（TD）求解

【转载】强化学习（七）时序差分离线控制算法Q-Learning

强化学习转载

【转载】强化学习（三）用动态规划（DP）求解

强化学习：DQN（转载）

增强学习（强化学习）基础之TD差分法

【强化学习】时间差分法(TD)

强化学习4-时序差分TD

强化学习：时序差分算法 TD-learning

强化学习(四)：蒙特卡罗学习(MonteCarlo)与时序差分学习(TD learning)

残差学习【转载】

Reinforcement Learning强化学习系列之四：时序差分TD

【转载】强化学习（四）用蒙特卡罗法（MC）求解强化学习（三）用动态规划（DP）求解强化学习（二）马尔科夫决策过程(MDP)

【转载】强化学习（十）Double DQN (DDQN)

[强化学习-4] 蒙特卡洛和时序差分法-控制

[强化学习-3] 蒙特卡洛和时序差分法-预测

【转载】强化学习(十一) Prioritized Replay DQN 强化学习（十）Double DQN (DDQN)

ADPRL - 近似动态规划和强化学习 - Note 12 - 数值时序差分学习(Numerical TD Learning)

ADPRL - 近似动态规划和强化学习 - Note 11 - 时序差分学习(Theory of TD learning)

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

转载五、Traceroute

【转载】强化学习（二）马尔科夫决策过程(MDP) 强化学习（一）模型基础

杨强：深度学习、强化学习、迁移学习的结合及应用进展（转载）

周志华强化学习时序差分学习公式推导

【转载】再励学习面试真题（强化学习面试真题）

转载---Hibernate学习四

【转载】JAVA学习路线

转载---Hibernate学习一

学习技巧(转载)

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)