学习内容：Hindsight experience replay

摘要：

ＨＥＲ（Hindsight experience replay）算法是Open AI 提出的用来解决反馈奖励稀疏的存储样本的数据结构，采用了渐进式的学习方法，通过调整任务难度让模型渐进式的学习，不断增强策略的能力．论文中replay buffer 以序列为单位储存（就是伪代码里面的episode），论文采用future的采样模式．从repaly buffer中采样ｂ个序列，从ｂ个序列中选择某一时刻得到ｂ个样本，每一个样本有一定概率将achieved_goal设置为当前时刻的任一时刻的状态．

关键词：

稀疏奖励，数据结构，渐进式学习

伪代码：

伪代码解释：

输入：

确定的异策略强化学习算法，比如ＤＱＮ，ＤＤＰＧ等

采样方式，如future

奖励函数：Ｒ

初始化算法和样本回放缓存区

在Ｍ个回合中：

采样一个目标和初始状态

在Ｔ－１次内：

在初始化的强化学习算法的策略中得到行动

执行该行动

循环结束

在Ｔ－１次内：

根据奖励和目标

将更新后的奖励和目标放在replay buffer中

随机采样目标存储在replay buffer中

在Ｎ次采样中：

从Ｒ中采样minibatch，其中每一个样本有一定概率修改目标

使用minibatch对Ａ进行优化

循环结束

思考问题：

怎样将ＨＥＲ算法用于无人驾驶的场景中

学习笔记：ＨＥＲ

学习内容：Hindsight experience replay

摘要：

关键词：

伪代码：

伪代码解释：

猜你喜欢