【深度强化学习】知识汇总（持续更新）

其他 2021-11-27 19:40:13 阅读次数: 0

1 基于值函数的方法

动态规划是 model-based 方法，MC 和 TD 都是 model-free 方法。

Dynamic Programming （动态规划）

Temporal-Difference Learning （时序差分学习）

Monte-Carlo Reinforcement Learning （蒙特卡洛方法）

sarsa

q-learning

2 基于策略梯度的方法

又称 直接策略搜索方法。

TRPO

Proximal Policy Optimization Algorithms （PPO）

猜你喜欢

转载自blog.csdn.net/weixin_41960890/article/details/120710967

【深度强化学习】知识汇总（持续更新）

深度强化学习汇总

强化学习知识汇总(2) - DQN

学习知识汇总（持续更新......）

深度强化学习

强化学习知识汇总(1) - 基础知识

深度强化学习的入门资源汇总-2016.8

《深度强化学习》面试题汇总

强化学习知识汇总(3) - Policy Gradient

【强化学习】小知识点汇总

深度学习中的问题汇总（持续更新．．．）

强化学习资料汇总

深度学习-强化学习

【学习】深度强化学习

深度强化学习- 最全深度强化学习资料

深度强化学习DQN

对深度强化学习的理解

深度强化学习剖析

深度强化学习—DQN

深度强化学习概述

深度强化学习笔记

深度强化学习的未来

什么是深度强化学习？

深度强化学习DLR

深度强化学习整理

【知识收录】强化学习

深度学习知识随记（持续更新ing）

深度强化学习（深度Q学习

核心【深度学习+深度强化学习】

深度强化学习1——强化学习到深度强化学习

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)