学习内容:Hindsight experience replay
摘要:
HER(Hindsight experience replay)算法是Open AI 提出的用来解决反馈奖励稀疏的存储样本的数据结构,采用了渐进式的学习方法,通过调整任务难度让模型渐进式的学习,不断增强策略的能力.论文中replay buffer 以序列为单位储存(就是伪代码里面的episode),论文采用future的采样模式.从repaly buffer中采样b个序列,从b个序列中选择某一时刻得到b个样本,每一个样本有一定概率将achieved_goal设置为当前时刻的任一时刻的状态.
关键词:
稀疏奖励,数据结构,渐进式学习
伪代码:
伪代码解释:
输入:
确定的异策略强化学习算法,比如DQN,DDPG等
采样方式,如future
奖励函数:R
初始化算法和样本回放缓存区
在M个回合中:
采样一个目标和初始状态
在T-1次内:
在初始化的强化学习算法的策略中得到行动
执行该行动
循环结束
在T-1次内:
根据奖励和目标
将更新后的奖励和目标放在replay buffer中
随机采样目标存储在replay buffer中
在N次采样中:
从R中采样minibatch,其中每一个样本有一定概率修改目标
使用minibatch对A进行优化
循环结束
循环结束
思考问题:
怎样将HER算法用于无人驾驶的场景中