一、概览
1、什么是强化学习?
2、马尔科夫决策过程。
3、Q-学习。
4、策略梯度(Policy Gradients)
二、强化学习
1、概念:
强化学习,假设有一个代理人(Agent,CS中的一个概念,下简写为Agn)和其相应的环境(Environment,下简写为Env)。若Env给Agn一个状态(state st),则Agn给Env一个反馈动作(Action at)。而后Env再反馈给Agn一个奖励(Reward,或者称为回馈)以及Env的下一个状态(state st+1)。如此往复循环。
举个栗子,小游戏是比较典型的强化学习案例。
目标是获得高分,环境状态是原始的游戏图像像素输入,动作是游戏需要的操作,奖励就是每个回合分数增减。
三、马尔科夫决策过程(Markov Decision Process,MDP)
1、定义
是Mathematical formulation of the RL problem (这个没看懂)
马尔科夫性质(Markov property):当前状态完全地决定了全局状态(Current state completely characterises the states of the world)。
数学定义:
算法过程抽象:
2、价值函数(Value Function)和Q-值函数(Q-Value Function):
评价一个state的好坏? 使用Value Function来评估。
优化策略Pi*对应于采取最佳action在Q*所指定的任一状态。
3、optimal policy的解,使用一种value iteration algorithm,值迭代算法:
四、解optimal policy:Q学习(Q-learning)
即使用神经网络去学习Q(s,a)。
具体算法如下:
五、策略梯度
1、Q-学习的问题:
算法复杂,不利于处理高纬度的复杂问题。
2、策略梯度的问题描述:
3、强化算法:
但是上述模型会陷入高方差的情况,所以需要一些方法来降低方差(Variance reduction):
假如我们不知道上述的Q和V,如何学习?
同样利用Q-学习,结合策略梯度和Q-学习训练一个actor(policy)和一个critic(Q-Function)。
算法如下: