问题

强化学习四元组 $E = < X, A, P, R >$ ， $x\in X$ 是状态， $a\in A$ 是动作， $P:X\times A\times X\rightarrow R$ 是状态转移概率， $R:X\times A\times X\rightarrow R$ 是奖赏。
$\pi$ 是策略， $\pi(x,a)$ 表示策略 $\pi$ 在状态 $x$ 时选择动作 $a$ 的概率，有 $\sum_a\pi(x,a)=1$ 。
强化学习任务是学习策略 $\pi$ ，就能计算执行的动作 $a=\pi(x)$ 。学习的目标是积累奖赏最大化，常用的累积奖赏有： $T$ 步累积奖赏 $=E(\frac{1}{T}\sum_{t=1}^{T}r_t)$ ， $\gamma$ 折扣累积奖赏 $=E(\sum_{t=0}^{\infty}\gamma^tr_{t+1})$ ，其中 $r_t$ 为第 $t$ 步获得的奖赏值。

摇臂赌博机

$\epsilon$ -贪心算法
输入：摇臂数 $K$ ，奖赏 $R$ ，尝试数 $T$ ，探索概率 $\epsilon$
过程：
$r = 0, Q (i) = 0, c n t (i) = 0$
for $t=1,2,\cdots,T$ :
$\quad$ if $\epsilon$ :
$\qquad k=randint(1,K)$ #仅探索
$\quad$ else:
$\qquad k=\argmax_iQ(i)$ #仅利用
$\quad v=R(k)$
$\quad r=r+v$
$\quad Q(k) =\frac{Q(k)*cnt(k)+v}{cnt(k)+1}$
$\quad cnt(k)=cnt(k)+1$
输出： $r$

随着时间推移，策略越来越好，需要探索的概率 $\epsilon$ 可以随时间减小，比如取 $\epsilon=\frac{1}{\sqrt{t}}$ 。也可以直接根据 $Q (k)$ 的概率进行采样，即softmax算法，采到 $k$ 的概率：
$P(k)=\frac{e^{Q(k)/\tau}}{\sum_{i=1}^K e^{Q(i)/\tau}}$

softmax算法
输入：摇臂数 $K$ ，奖赏 $R$ ，尝试数 $T$ ，温度参数 $\tau$
过程：
for $t=1,2,\cdots,T$ :
$\quad$ 根据 $P (k)$ 采样得到 $k$ :
$\quad v=R(k)$
$\quad r=r+v$
$\quad Q(k) =\frac{Q(k)*cnt(k)+v}{cnt(k)+1}$
$\quad cnt(k)=cnt(k)+1$
输出： $r$

有模型学习

四元组 $E = < X, A, P, R >$ 已知，有模型学习。状态值函数:
$\left\{\begin{array}{l} V_T^\pi(x)=\Bbb E_\pi[\frac{1}{T}\sum_{t=1}^Tr_t|x_0=x]\\ V_\gamma^\pi(x)=\Bbb E_\pi[\sum_{t=1}^\infty \gamma^tr_{t+1}|x_0=x] \end{array} \right.$
状态-动作值函数：
$\left\{\begin{array}{l} Q_T^\pi(x,a)=\Bbb E_\pi[\frac{1}{T}\sum_{t=1}^Tr_t|x_0=x,a_0=a]\\ Q_\gamma^\pi(x,a)=\Bbb E_\pi[\sum_{t=1}^\infty \gamma^tr_{t+1}|x_0=x,a_0=a] \end{array} \right.$
Bellman等式（以 $\gamma$ 折扣为例）：
$\left\{\begin{array}{l} Q(x,a)=\sum_{x'}P_{x\to x'}^a(R_{x\to x'}^a+\gamma V(x'))\\ V(x)=\sum_a\pi(x,a)Q(x,a) \end{array}\right.$

策略评估算法
输入： $E = < X, A, P, R >$ ；被评估策略 $\pi$ ；
过程：
$\forall x,V(x)=0$
for $t=1,2,\cdots$ :
$\quad \forall x,V'(x)=\sum_a\pi(x,a)\sum_{x'}P_{x\to x'}^a(R_{x\to x'}^a+\gamma V(x'))$
$\quad$ if $max_x|V'(x)-V(x)|<thr$ :
$\qquad break$
输出：状态值函数 $V$

最优Bellman等式（以 $\gamma$ 折扣为例）：
$\left\{\begin{array}{l} V(x)=\max_aQ(x,a)\\ Q(x,a)=\sum_{x'}P_{x\to x'}^a(R_{x\to x'}^a+\gamma \max_{a'}Q(x',a')) \end{array}\right.$
策略改进： $\pi'(x)=\argmax_aQ(x,a)$

策略迭代算法
输入： $E = < X, A, P, R >$ ；
过程：
$\forall x,V(x)=0,\pi(x,a)=1/|A|$
while True:
$\quad$ for $t=1,2,\cdots$ :
$\qquad \forall x,V'(x)=\sum_a\pi(x,a)\sum_{x'}P_{x\to x'}^a(R_{x\to x'}^a+\gamma V(x'))$
$\qquad$ if $max_x|V'(x)-V(x)|<thr$ :
$\quad\qquad break$
$\quad \forall x,\pi'(x)=\argmax_aQ(x,a)$ #用Bellman等式计算 $Q$
$\quad$ if $\pi'(x)=\pi(x),\forall x$ :
$\qquad break$
$\quad \pi=\pi'$
输出：最优策略 $\pi$

策略迭代算法中，策略的更新太慢。策略的迭代可以和值函数的迭代一起进行：

值迭代算法
输入： $E = < X, A, P, R >$ ；被评估策略 $\pi$ ；
过程：
$\forall x,V(x)=0$
while True:
$\quad$ for $t=1,2,\cdots$ :
$\qquad \forall x,V'(x)=\max_a\sum_{x'}P_{x\to x'}^a(R_{x\to x'}^a+\gamma V(x'))$
$\qquad$ if $max_x|V'(x)-V(x)|<thr$ :
$\quad\qquad break$
输出：最优策略 $\pi=\argmax_aQ(x,a)$

免模型学习

实际中， $P, R$ 很难知道，而且有多少状态也很难得知，此时学习算法不依赖于环境建模，为免模型学习。模型未知，我们从起始状态出发，使用某种策略采样，得到： $<x_0,a_0,r_1,x_1,a_1,r_2,\cdots,x_{T-1},a_{T-1},r_T,x_T>$

蒙特卡洛强化学习

同策略(on-policy)蒙特卡洛算法
输入： $A,x_0,T$
过程：
$Q(x,a)=0,cnt(x,a)=0,\pi(x,a)=\frac{1}{|A|}$
for $s=1,2,\cdots:$
$\quad$ 执行策略 $\pi^\epsilon$ ，得到轨迹 $<x_0,a_0,r_1,x_1,a_1,r_2,\cdots,x_{T-1},a_{T-1},r_T,x_T>$
$\quad$ for $t=0,\cdots,T-1:$
$\qquad R=\frac{1}{T-t}\sum_{i=t+1}^{T}r_i$
$\qquad Q(x_t,a_t)=\frac{Q(x_t,a_t)*cnt(x_t,a_t) + R}{cnt(x_t,a_t)+1}$
$\qquad cnt(x_t,a_t)=cnt(x_t,a_t)+1$
$\quad \pi^\epsilon(x)=\left\{\begin{array}{ll} \argmax_aQ(x,a) & rand()>\epsilon\\ 1/|A| & rand() < \epsilon \end{array}\right.$
输出：策略 $\pi^\epsilon$

同策略蒙特卡洛产生的是 $\epsilon$ -贪心策略，我们需要在评估时引入 $\epsilon$ -贪心策略，而在改进时改进原始策略。
函数 $f$ 在概率 $p$ 下的期望：
$\Bbb E(f)=\int_xf(x)p(x)dx=\int_xf(x)\frac{p(x)}{q(x)}q(x)dx$

用概率 $p$ 采样得到： $(x_1,x_2,\cdots,x_m)$ ，则可估计 $f$ 在概率 $p$ 下的期望：
$\hat{\Bbb E}(f)=\frac{1}{m}\sum_{i=1}^mf(x_i)$

用概率 $q$ 采样得到： $(x_1',x_2',\cdots,x_m')$ ，则可估计 $f$ 在概率 $p$ 下的期望（重要性采样，importance sampling）：
$\hat{\Bbb E}(f)=\frac{1}{m}\sum_{i=1}^mf(x_i')\frac{p(x_i')}{q(x_i')}$

同理，可以用 $\pi^\epsilon$ 采样，去估计 $\pi$ 下 $Q$ 的期望：
$Q(x,a)=\frac{1}{m}\sum_{i=1}^mR_i\frac{P_i^\pi}{p_i^{\pi^\epsilon}}$

$P^\pi=\prod_{i=0}^{T-1}\pi(x_i,a_i)P_{x_i\to x_{i+1}}^{a_i},P^{\pi^\epsilon}=\prod_{i=0}^{T-1}\pi^\epsilon(x_i,a_i)P_{x_i\to x_{i+1}}^{a_i}$ ，所以：
$\frac{P^\pi}{P^{\pi^\epsilon}}=\prod_{i=0}^{T-1}\frac{\pi(x_i,a_i)}{\pi^\epsilon(x_i,a_i)}$

其中， $\pi(x_i,a_i)=\Bbb I(a_i=\pi(x_i)), \pi^\epsilon(x_i,a_i)=\left\{\begin{array}{ll} 1-\epsilon+\frac{\epsilon}{|A|} & a_i=\pi(x_i)\\ \frac{\epsilon}{|A|} & a_i\ne\pi(x_i) \end{array}\right.$ ，所以，这边的连乘计算很容易为0，下面的异策略蒙特卡洛算法只是参考，实际不能这样计算。

异策略(off-policy)蒙特卡洛算法
输入： $A,x_0,T$
过程：
$Q(x,a)=0,cnt(x,a)=0,\pi(x,a)=\frac{1}{|A|}$
for $s=1,2,\cdots:$
$\quad$ 执行策略 $\pi^\epsilon$ ，得到轨迹 $<x_0,a_0,r_1,x_1,a_1,r_2,\cdots,x_{T-1},a_{T-1},r_T,x_T>$
$\quad$ for $t=0,\cdots,T-1:$
$\qquad R=(\frac{1}{T-t}\sum_{i=t+1}^{T}r_i)(\prod_{i=t}^{T-1}\frac{\pi(x_i,a_i)}{\pi^\epsilon(x_i,a_i)})$
$\qquad Q(x_t,a_t)=\frac{Q(x_t,a_t)*cnt(x_t,a_t) + R}{cnt(x_t,a_t)+1}$
$\qquad cnt(x_t,a_t)=cnt(x_t,a_t)+1$
$\quad \pi(x)=\argmax_aQ(x,a)$
输出：策略 $\pi$

时序差分学习

蒙特卡洛算法没有利用MDP，效率比较低，时序差分（TD）结合了动态规划和蒙特卡洛思想，更加高效。蒙特卡洛中 $Q$ 的迭代可写为：
$Q(x,a)=Q(x,a)+\frac{1}{c+1}(R-Q(x,a))=Q(x,a)+\alpha_c(R-Q(x,a))$

可令 $\alpha_c=\alpha$ ，且采样 $< x, a, r, x^{'}, a^{'} >$ ，则：
$Q(x,a)=Q(x,a)+\alpha(r+\gamma Q(x',a')-Q(x,a))$

Sarsa(on-policy)算法
输入： $A,x_0,\gamma, \alpha$
过程：
$Q(x,a)=0,\pi(x,a)=\frac{1}{|A|},x=x_0,a=\pi(x)$
for $t=1,2,\cdots:$
$\quad 执行a\Rightarrow r,x'$
$\quad a'=\pi^\epsilon(x')$
$\quad Q(x,a)=Q(x,a)+\alpha(r+\gamma Q(x',a')-Q(x,a))$
$\quad \pi(x)=\argmax_{a''}Q(x,a'')$
$\quad x=x', a=a'$
输出：策略 $\pi$

Q-Learning(off-policy)算法
输入： $A,x_0,\gamma, \alpha$
过程：
$Q(x,a)=0,\pi(x,a)=\frac{1}{|A|},x=x_0,a=\pi(x)$
for $t=1,2,\cdots:$
$\quad 执行a\Rightarrow r,x'$
$\quad a'=\pi(x')$
$\quad Q(x,a)=Q(x,a)+\alpha(r+\gamma Q(x',a')-Q(x,a))$
$\quad \pi(x)=\argmax_{a''}Q(x,a'')$
$\quad x=x', a=\pi^\epsilon(x')$
输出：策略 $\pi$

Policy Gradient

以下的算法都是Deep RL，(PPT)，actor network $a=\pi_\theta(x)$ ， $a$ 看成动作的概率分布向量，与环境互动得到一条轨迹后，可以获得训练数据：
$\{\{x_t,a_t\},A_t|t=0,\cdots,T-1\}$

其中， $A_t=\sum_{i=t}^{T-1}\gamma^{i-t}r_{i+1}-b$ ，用累计奖赏表示这条样本的权重。 $a_t$ 看成one-hot的表示形式，交叉熵 $e_t=CE(\pi_\theta(x_t),a_t)$ ，则loss：
$L=\sum_{t=0}^{T-1}A_te_t$

求偏导：
$\triangledown_\theta L=-\sum_{t=0}^{T-1}A_t \triangledown\ln(\pi_\theta(x_t,a_t))$

Policy Gradient(on-policy)算法
过程：
初始化 $\theta=\theta_0$
for $i=1,2,\cdots,N:$
$\quad$ 训练数据： $\pi_\theta$ 与环境互动得到 $\{\{x_t,a_t\},A_t|t=0,\cdots,T-1\}$
$\quad$ 计算Loss： $L=\sum_{t=0}^{T-1}A_te_t$
$\quad$ 更新参数： $\theta=\theta-\eta\triangledown_\theta L=\theta+\eta\sum_{t=0}^{T-1}A_t \triangledown_\theta\ln(\pi_\theta(x_t,a_t))$
输出：网络参数 $\theta$

Proximal Policy Optimization

PPO=Policy Gradient的off-policy形式+参数约束

off-policy PG

令 $p_\theta(a|x)=\pi_\theta(x,a),\theta$ 为更新的策略参数， $\theta'$ 为采样的策略参数，则：
$-\triangledown_\theta L=\Bbb E_{x,a\sim\pi_\theta}[A(x,a)\triangledown \ln(\pi_\theta(x,a))]\\ =\Bbb E_{x,a\sim\pi_{\theta'}}[\frac{p_\theta(x,a)}{p_{\theta'}(x,a)}A(x,a)\triangledown \ln(\pi_\theta(x,a))]\\ =\Bbb E_{x,a\sim\pi_{\theta'}}[\frac{p_\theta(a|x)}{p_{\theta'}(a|x)}A(x,a)\triangledown \ln(p_\theta(a|x))]\\ =\Bbb E_{x,a\sim\pi_{\theta'}}[\frac{\triangledown p_\theta(a|x)}{p_{\theta'}(a|x)}A(x,a)]\\ =\triangledown_\theta J^{\theta'}(\theta)$

得到优化的目标函数：
$J^{\theta'}(\theta)=\Bbb E_{x,a\sim\pi_{\theta'}}[\frac{p_\theta(a|x)}{p_{\theta'}(a|x)}A(x,a)]$

constraint

在优化时，不希望 $\theta$ 与 $\theta'$ 相差太多，可以增加参数约束：
$J_{PPO}^{\theta'}(\theta)=J^{\theta'}(\theta)-\beta KL(\theta,\theta')$

另外一种用clip来限制参数的方法：
$J_{PPO2}^{\theta'}(\theta)=\Bbb E_{x,a\sim\pi_{\theta'}}[\min(\frac{p_\theta(a|x)}{p_{\theta'}(a|x)}A(x,a),clip(\frac{p_\theta(a|x)}{p_{\theta'}(a|x)},1-\epsilon,1+\epsilon)A(x,a))]$

PPO算法

PPO(off-policy)算法
过程：
初始化 $\theta=\theta_0,\theta'=\theta$
for $i=1,2,\cdots,N:$
$\quad$ 训练数据： $\pi_{\theta'}$ 与环境互动得到 $\{\{x_t,a_t\},A_t|t=0,\cdots,T-1\}$
$\quad$ 更新参数： $\theta=\argmax_\theta J_{PPO}^{\theta'}(\theta)$
$\quad \theta'=\theta$
输出：网络参数 $\theta$

这边有一个代码实现

Actor-Critic

状态值函数估计

状态空间离散时，前面有值函数策略评估算法来计算 $V$ ；当状态空间连续时，用网络 $V^\phi(x)$ 来表示值函数，有蒙特卡洛(MC)和时序差分(TD)两种方法来评估得到 $V^\phi(x)$ ：

MC：采样得到训练数据 $\{x_t, R_t|t=0,\cdots,T-1\},V^\phi(x_t)=R_t=\sum_{i=t}^{T-1}\gamma^{i-t}r_{i+1}$ ，训练 $V^\phi(x)$ 网络
TD：用 $V^\phi(x_t)=r_{t+1}+\gamma V^\phi(x_{t+1})$ 来训练

MC方差大，精度高，TD方差小，精度低。

Actor-Critic

将 $A_t$ 中的 $b$ 换成 $V^\phi(x_t)$ ，表示当前的动作获得的奖赏比平均值大多少，如果大于平均值，则当前动作应受到鼓励，弱小于平均值，则当前动作不可采取。在TD中， $A_t$ 中的第一项累计奖赏可以用 $r_{t+1}+\gamma V^\phi(x_{t+1})$ 来近似，所以可得：
$A_t=r_{t+1}+\gamma V^\phi(x_{t+1})-V^\phi(x_t)$

$\pi^\theta$ 是Actor，Loss函数如上 $L^\theta=A_te_t$ ； $V^\phi$ 是Critic，Loss函数为 $L^\phi=\frac{1}{2}|A_t|^2$

Actor-Critic算法
过程：
初始化 $\theta=\theta_0,\phi=\phi_0,x=x_0$
for $i=1,2,\cdots:$
$\quad$ 选择动作 $a\sim\pi^\theta(x)$
$\quad$ 得到奖赏和下一个状态： $r, x^{'}$
$\quad A=r+\gamma V^\phi(x')-V^\phi(x)$
$\quad$ 更新参数： $\phi=\phi-\eta\triangledown_\phi L^\phi=\phi+\eta A\triangledown_\phi V^\phi(x)$
$\quad$ 更新参数： $\theta=\theta-\eta\triangledown_\theta L^\theta=\theta+\eta A\triangledown_\theta\ln(\pi^\theta(x,a))$
$\quad x=x'$
输出：网络参数 $\theta,\phi$

这边有一个代码实现

DQN

DQN算法
过程：
初始化 $Q,\hat Q$ 的参数 $\theta=\theta_0,\hat\theta=\theta$ ，队列 $q$
for $i=1,2,\cdots,:$
$\quad 执行a\Rightarrow r,x'$
$\quad q.append((x,a,r,x'))$
$\quad$ 从 $q$ 中采样 $\{(x_t,a_t,r_t,x_t')|t=1,\cdots,B\}$
$\quad y_t=r_t+\gamma \max_a\hat Q(x_t',a)$
$\quad \theta=\theta+\alpha\sum_t\triangledown_\theta Q(x_t,a_t)*(y_t-Q(x_t,a_t))$
$\quad$ 每隔 $C$ 步更新： $\hat\theta=\theta$
$\quad \pi(x)=\argmax_{a''}Q(x,a'')$
$\quad x=x', a=\pi^\epsilon(x')$
输出：网络参数 $\theta$

Tips:

Double DQN
- DQN倾向于高估Q值
- DDQN只改动一行： $y_t=r_t+\gamma \hat Q(x_t',\argmax_aQ(x_t',a))$
Dueling DQN
- only change the network structure
Prioritized Reply
- 队列中更大TD error（ $y_t-Q(x_t,a_t)$ ）的样本被选择概率更高
Multi-step
- 采样 $(x_t,a_t,r_t,\cdots,x_{t+N},a_{t+N})$
- $Q(x_t,a_t)=\sum_{i=0}^{N-1}\gamma^i r_{t+i}+\hat Q(x_{t+N},a_{t+N})$
Noisy Net
- noisy on action (Epsilon Greedy)
- noisy on parameters
  - $a=\argmax_a\tilde Q(x,a)$
Distributed DQN
Rainbow
- 综合所有的tips

RL note

问题

摇臂赌博机

有模型学习

免模型学习

蒙特卡洛强化学习

时序差分学习

Policy Gradient

Proximal Policy Optimization

off-policy PG

constraint

PPO算法

Actor-Critic

状态值函数估计

Actor-Critic

DQN

reward shaping

imitation

猜你喜欢