【CS231n】十四、深度强化学习

一、概览

1、什么是强化学习？

2、马尔科夫决策过程。

3、Q-学习。

4、策略梯度（Policy Gradients）

二、强化学习

1、概念：

强化学习，假设有一个代理人（Agent，CS中的一个概念，下简写为Agn）和其相应的环境（Environment，下简写为Env）。若Env给Agn一个状态（state st），则Agn给Env一个反馈动作（Action at）。而后Env再反馈给Agn一个奖励（Reward,或者称为回馈）以及Env的下一个状态（state st+1）。如此往复循环。

举个栗子，小游戏是比较典型的强化学习案例。

目标是获得高分，环境状态是原始的游戏图像像素输入，动作是游戏需要的操作，奖励就是每个回合分数增减。

三、马尔科夫决策过程（Markov Decision Process，MDP）

1、定义

是Mathematical formulation of the RL problem （这个没看懂）

马尔科夫性质（Markov property）:当前状态完全地决定了全局状态（Current state completely characterises the states of the world）。

数学定义：

算法过程抽象：

核心是要找到优化策略Pi*，能够最大化reward的总和。

2、价值函数（Value Function）和Q-值函数（Q-Value Function）:

评价一个state的好坏? 使用Value Function来评估。

而评价一个state和action的组合的好坏呢？就使用Q-value Function来评估。

优化的Q-value Function：

优化策略Pi*对应于采取最佳action在Q*所指定的任一状态。

3、optimal policy的解，使用一种value iteration algorithm，值迭代算法：

使用复杂函数毕竟Q（s,a）,即神经网络是一个好方法。

四、解optimal policy：Q学习（Q-learning）

即使用神经网络去学习Q（s,a）。

具体算法如下：

1、Q-学习网络结构

2、其中的一些问题和解决方法：

3、整体算法流程

五、策略梯度

1、Q-学习的问题：

算法复杂，不利于处理高纬度的复杂问题。

2、策略梯度的问题描述：

具体方法即使用梯度上升来寻找这样的参数theta。通过使用强化算法。

3、强化算法：

不依赖转移概率的近似方法：

但是上述模型会陷入高方差的情况，所以需要一些方法来降低方差（Variance reduction）：

第三种方法，通过设置baseline，

如何选择baseline

4、Actor-Critic Algorithm

假如我们不知道上述的Q和V，如何学习？

同样利用Q-学习，结合策略梯度和Q-学习训练一个actor（policy）和一个critic（Q-Function）。

算法如下：

【CS231n】十四、深度强化学习

猜你喜欢