强化学习第二版目录 - 代码天地

强化学习第二版目录

其他 2020-02-22 17:50:48 阅读次数: 0

本文是基于Sutton和Barto的强化学习书籍第二版的一些理解，难免会有偏差，有错误的地方，望指出！

原文书籍链接：http://incompleteideas.net/book/RLbook2018.pdf

　　0 介绍

part Ⅰ：表格型解决方法

　　1 多臂赌徒问题(Multi-armed Bandits)

　　2 有限马尔可夫决策过程(Finite Markov Decision Processes)

　　3 动态规划(Dynamic Programming)

　　4 蒙特卡罗方法(Monte Carlo Methods)

　　5 时间差分学习(Temporal-Di↵erence Learning)

　　6 n步自举法(n-step Bootstrapping)

　　7 带表格的规划和学习(Planning and Learning with Tabular Methods)

part Ⅱ：近似解决方法

　　1 带近似的on-policy预测(On-policy Prediction with Approximation)

　　2 带近似的on-policy控制(On-policy Control with Approximation)

　　3 带近似的off-policy方法(Off-policy Methods with Approximation)

　　4 适应度轨迹(Eligibility Traces)

　　5 策略梯度方法(Policy Gradient Methods)

part Ⅲ：更深层次的领域

　　1 心理学

　　2 神经科学

　　3 应用和案例学习

　　4 边界

猜你喜欢

转载自www.cnblogs.com/phonard/p/12346263.html

强化学习第二版目录

强化学习导论第二版

第四章蒙特卡洛方法-强化学习理论学习与代码实现（强化学习导论第二版）

第六章函数逼近-强化学习理论学习与代码实现（强化学习导论第二版）

第十二章演员评论家（Actor-Critic）-强化学习理论学习与代码实现（强化学习导论第二版）

第十一章策略梯度（Policy Gradient）-强化学习理论学习与代码实现（强化学习导论第二版）

学习bash第二版-目录

第五章基于时序差分和Q学习的无模型预测与控制-强化学习理论学习与代码实现（强化学习导论第二版）

第十五章第十五章异步A3C(Asynchronous Advantage Actor-Critic，A3C)-强化学习理论学习与代码实现（强化学习导论第二版）

第十四章深度确定性策略梯度（Deep Deterministic Policy Gradient Algorithms，DDPG）-强化学习理论学习与代码实现（强化学习导论第二版）

第十三章确定性策略梯度（Deterministic Policy Gradient Algorithms，DPG）-强化学习理论学习与代码实现（强化学习导论第二版）

Causality 第二版目录

git学习第二版

学习bash第二版-前言

强化学习（二）

强化学习二

第二章强化学习与深度强化学习

【深度强化学习】《强化学习》第二章代码分析与实现

剑桥学习科学手册（第二版）读书笔记目录

软件测试技术大全第二版目录

剑指offer（第二版）题解目录

Hadoop实战第二版.pdf —— 带目录标签

学习bash第二版-附录二参考列表

强化学习基础（二）

强化学习入门（二）

强化学习（二）：Sarsa

【转】强化学习（二）

强化学习笔记（二）

vue第二版

深度强化学习系列（二）：强化学习基础

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)