强化学习笔记一 N-armed bandit Problem - 代码天地

强化学习笔记一 N-armed bandit Problem

其他 2018-12-25 21:23:32 阅读次数: 0

本篇笔记是RL学习的入门，介绍N-armed Bandit问题和解决算法。

N-armed Bandit问题
N-armed Bandit问题出自赌场中的多臂老虎机，在每一步你都有n种选择，每一个选择会给你一定的回报，目标是尽量获得最高的收益。

先定义估计值 ${Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}$ ，即为在t步中选择a获得收益的均值。

解决方法分为两类，exploitation和exploration方法。

Exploitation
Greedy方法就是每次取估计值最大的选择，好处是简单，坏处是由于估计值与真实值不相等，所以往往选择的是次优的选择，而且greedy方法没有跳出机制，即会一直困在当前次优选择上，无法选择到最优值。

Exploration
我们将greedy结合一个跳出的机制，即为 $\epsilon-greedy$ 方法，每次以 $1-\epsilon$ 的概率取估计值最大的选择，以 $\epsilon$ 的概率随机取一个选择。当时间足够长的时候，这种方法表现会比greedy要好。 $\epsilon$ 较大时收敛较快，但收敛的值会稍小于optimal value，较小时收敛较慢，但收敛的值会更趋近于optimal value。

另一种结合Exploitation和Exploration的是softmax方法。在t步选择a的概率为
$\frac{e^{Q_t(a)/\tau}}{\sum_{i=1}^n e^{Q_t(i)/\tau}}$
当 ${\tau}$ 趋近1时，softmax变为随机等概率选择；当 ${\tau}$ 趋近0时，softmax变为greedy选择。

证明 ${\tau}$ 趋近0时，softmax变为greedy选择：

softmax和 $\epsilon-greedy$ 好坏取决于具体情况。

其他还有很多种方法，例如UCB等等，具体不详细介绍了。

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/82935349

强化学习笔记一 N-armed bandit Problem

强化学习方法（一）：探索-利用困境exploration exploitation，Multi-armed bandit

强化学习之三：双臂赌博机（Two-armed Bandit）

强化学习 K-摇臂赌博机模型 Multi-armed Bandit，Python代码

Multi-Armed bandit --------强化学习（含ucb python 代码）

【RL系列】Multi-Armed Bandit笔记补充（一）

【RL系列】Multi-Armed Bandit问题笔记

【RL系列】Multi-Armed Bandit笔记补充（二）

Bourne强化学习笔记3：在简单的Bandit问题中抓住强化学习的本质

【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略

论文笔记——Contextual Multi-armed Bandit Algorithm for Semiparametric（半参数） Reward Model

Bandit

Wargames-bandit学习笔记

多臂赌博机Multi-Armed Bandit(MAB)

强化学习中的multiarmed-Bandit以及经典解法epsilon-greedy算法，附加python实现

The Epsilon-Greedy /UCB ("upper confidence bound") for MAB (Multiarmed-bandit) problem sometime in reinforcement learning (RL)

推荐系统︱基于bandit的主题冷启动在线学习策略

bandit game

Bandit算法

强化学习笔记（一）

cs231n---强化学习

强化学习的N臂匪徒模型

《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）

强化学习笔记-07 n-step Bootstrapping 多步TD时分学习

CNN笔记（CS231N）——强化学习（Reinforcement Learning）

强化学习系列（二）：Multi-armed Bandits(多臂老虎机问题）

推荐系统遇上深度学习(十二)--推荐系统中的EE问题及基本Bandit算法

A Contextual-Bandit Approach to Personalized News Article Recommendation-论文学习

【CF960G】Bandit Blues（第一类斯特林数,FFT）

CF960G Bandit Blues（第一类斯特林数）

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)