David Silver深度强化学习第4课-免模型预测 - 代码天地

David Silver深度强化学习第4课-免模型预测

企业开发 2018-10-15 05:10:42 阅读次数: 0

https://www.bilibili.com/video/av9831252
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MC-TD.pdf

Model-Free reinforcement learning

在这里插入图片描述

方法1：Mente-Carlo Reinforement learning

(MC方法是最有效，应用最广泛的方法)
MC methods learn directly from episodes of experience（直接从经验片段中学习，不需要MDP的转移概率或回报等相关信息，这就是model-free）
在这里插入图片描述
（MC方法使用的是经验上的renturn而不是expect的return。）

MC policy evaluation分类：

First-visit MC policy evaluation
Every-visit

我们可以利用策略产生很多次试验，每次试验(an episode)都是从任意的初始状态开始直到终止状态.
The mean µ1, µ2, … of a sequence x1, x2, … can be computed
incrementally,µk

Monte-Carlo vs TD

Monte-Carlo是每一时刻的结果都要向实际的结果上更新
TD是一直更新猜想，当最后更新完成时也就达到了最终结果。

Advantages and Disadvantages of MC vs. TD

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41913844/article/details/83047871

David Silver深度强化学习第4课-免模型预测

David Silver深度强化学习第1课

David Silver深度强化学习第3课 - 动态规划

David Silver深度强化学习第2课 - 马尔科夫决策过程

机器学习：David Silver 深度强化学习课程

算法模型---【David Silver强化学习公开课】

David Silver强化学习公开课（四）：不基于模型的预测

David Silver 强化学习Lecture1：Introduction

David Silver 强化学习Lecture3：Dynamic Programming

David Silver 强化学习Lecture2：MDP

强化学习David Silver课程Lecture1 笔记

强化学习David Silver课程Lecture2 笔记

David Silver强化学习课程笔记（一）

David Silver强化学习公开课（一）：简介

David Silver强化学习公开课第七课 Actor critic

David Silver强化学习公开课（五）：不基于模型的控制

【David Silver-强化学习笔记】p2、马尔科夫模型

David Silver 强化学习Lecture4：Model-Free Prediction

Lecture 4：Model Free Prediction -By David Silver

David Sankoff 介绍学习链接

David Silver《强化学习RL》第八讲整合学习与规划

David Silver RL课程第2课（Markov decision processes)

【转载】David Silver公开课1——强化学习入门

David Silver《强化学习RL》第一讲介绍

David Silver《强化学习RL》第二讲马尔可夫决策过程

David Silver《强化学习RL》第三讲动态规划寻找最优策略

David Silver《强化学习RL》第七讲策略梯度

David Silver强化学习Lecture2：马尔可夫决策过程

David Silver强化学习公开课（三）：动态规划寻找最优策略

David Silver强化学习公开课（二）：马尔科夫决策过程

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)