《强化学习》基本概念和交叉熵方法

其他 2018-06-22 05:15:55 阅读次数: 1

基本概念

监督学习与强化学习

监督学习	强化学习
通过学习近似参考答案	通过试验和错误来学习最优策略
需要正确答案	代理的动作需要反馈
模型不影响输入数据	代理可以影响自己的观察

MDP形式定义

这里写图片描述

RL的目标

最大化累积奖赏的期望
这里写图片描述

CEM交叉熵方法

算法步骤

初始化策略
重复
1. 抽样N个sessions
2. 选取elite sessions:选择前M个最好的session(奖励最大的)
3. 更新策略使得elite sessions中的动作优先级更高

Tabular CE

这里写图片描述

Smoothing

上述方法存在一个问题：如果某个状态只访问了一次，那么在那一次所采取的动作将会在未来一直被采取。
应用平滑技术：
$\pi(a|s)=\frac{[\text{took a at s}]+\lambda}{[\text{was at s}]+\lambda \cdot N_{actions}}$
另一种：平滑更新
$\pi_{i+1}(a|s)=\alpha\cdot\pi_{opt}+(1-\alpha)\pi_{i}(a|s)$

随机MDP

如果环境具有随机性，算法会更偏向“幸运”的session。
在(由随机性带来的)幸运session上训练并不好。
解决方法：在每一个状态抽样若干个动作，从那些state-action对开始运行若干模拟，将结果平均。降低随机性的影响。

Approximate CE

算法步骤

这里写图片描述

连续动作空间

这里写图片描述

CE Trick

记住最近3-5次迭代的sessions
- 全部用于训练（利用最近的sessions和新抽样的sessions作为候选）
- 简单环境下可能导致收敛变慢
使用熵来正则化
- 防止过早收敛，防止最优动作无法被探索到
并行采样
如果是部分观测问题，使用RNN

CE方法总结：

容易实现
效果还不错
黑盒优化
- 不知道环境信息
- 不知道中间奖赏信息
样本效率低，采样了很多sessions，只有部分可以用于训练。在现实环境很难使用。
需要完整的session才能训练

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80503472

《强化学习》基本概念和交叉熵方法

【深度强化学习】强化学习的基本概念

【深度强化学习】交叉熵方法

强化学习概念

强化学习（RL）基本概念

强化学习（基本概念）

强化学习基本概念

（一）强化学习基本概念

强化学习：基本概念

强化学习基础：基本概念和动态规划

强化学习--概念之

强化学习--基础概念

强化学习（一）强化学习的基本概念、e贪心算法、Softmax算法

强化学习了解强化学习的目标和回报

《强化学习》探索方法

深度强化学习的基本概念及基本算法

（1）深度强化学习基础【基本概念】

强化学习的基本迭代方法

基本概念:人工智能,机器学习,深度学习,强化学习的区别和简介

深度学习和强化学习的关系

机器学习和强化学习--note

深度学习和强化学习的区别

强化学习基础概念笔记

强化学习基础之概念介绍

强化学习是个啥概念？

强化学习-概念05：Imitation Learning

强化学习基本知识

强化学习-01-基本介绍

《强化学习》基于策略的方法

《强化学习》模型无关方法

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)