版权声明:本文为博主原创文章,欢迎交流分享,未经博主允许不得转载。 https://blog.csdn.net/qjf42/article/details/79655483
《Reinforcement Learning: An Introduction》 读书笔记 - 目录
Reinforcement Learning 和 Supervised Learning 的区别
evaluate vs instruct
- 也就是说,RL的对于每一个action的效果不是非黑即白的,而是在每一次的action之后都可能不一样的后果(feedback, reward)
- 非iid,基于不同环境 和/或 之前的 actions
- reward可能是随机的
定义问题( k-armed bandit problem)
- k种actions => k个reward 的平稳分布
- 目标
一些概念
exploitation vs exploration (EE)
- exploitation: greedy move
- exploration: nongreedy trial
reward & value
the
value
of an action , denoted , is theexpected reward
given that
- i.e.
- 用经验分布近似估计:
- 迭代式(在执行某个
后):
- 更广义的,
- 这里,StepSize可以是单调减的,常数(指数平滑), …
几种方法
-greedy
- 算法
- 以 执行greedy action (exploitation)
- 以 执行nongreedy action (exploration)
- 优点
- 实现简单
- 效果不会太差,即使分布是非平稳的
- 缺点
- 通常收敛比较慢
- 单纯的 -greedy收敛后执行最优action(greedy)的比例为
- 优化点
- 随时间减小
- 选一个大点的
- encourage exploration,选择足够大,能保证state space都覆盖到
- 即使非平稳也没问题,因为影响只是暂时的
UCB(Upper-Confidence-Bound)
- 算法
- 或1
- 是平衡EE的参数(类比置信度)
- 缺点
- 适用范围没有 -greedy广,比如非平稳分布
Gradient Bandit
- 算法
- 定义
- 为preference for action a
- ,非argmax
- 迭代
- 推导
- 定义
- 优点
- 通用思想,可以引申到后面的full RL问题中
其它
Bayesian methods(posterior sampling/Thompson sampling)
- 假设value服从某个(未知的)稳定分布
- 假设一个(确定的)先验分布 ,执行一系列action,根据结果,得到后验分布 (收敛于 )
- e.g
如何比较(参数&算法)
- learning curve
- x轴为参数,y轴为average sum of rewards (e.g of 1000 experiments)
- x轴为参数,y轴为average sum of rewards (e.g of 1000 experiments)
其他点
associative search (contextual bandits)
- 就是包含不同situation (environment)的问题(但与former actions仍无关)
If actions are allowed to affect the next situation as well as the reward, then we have the full reinforcement learning problem.