【David Silver-强化学习笔记】p2、马尔科夫模型

2.1 马尔科夫过程

Markov decision process 是用来对环境建模的模型，这个环境是fully observable的，即便是partially observable也可以转化为MDP。所以在强化学习领域，几乎所有的问题都可以转化为MDP模型。

2.1.1 Markov property

在这里插入图片描述

2.1.2 State Transition Matrix

假如agent有不同的状态，可以用状态转移矩阵，描述了不同状态之间转移的概率。如下图，每一行的概率和为1.
在这里插入图片描述

2.1.3 Definition of Markov Process

在这里插入图片描述
可以把马尔科夫过程描述成状态空间S和转移矩阵组成的二元组。

一个简单的例子，学生上课的状态转移图：
在这里插入图片描述

期间，有学生提问讲，如何应对随着时间的流逝，转移概率变化的情况，David提出的解决方案思路是动态的演变转移图，但这并不改变Markov的结构。

2.2 Markov Reward Process

2.2.1 definition

给马尔科夫过程加上状态转移对应的奖励值。这样将马尔科夫过程扩充为四元组(S,P,R,γ)，其中R是即时奖励，γ为discount rate。
在这里插入图片描述

2.2.2 Gt

对于一个trajectory而言，获得的奖励G就是：
在这里插入图片描述
NOTE:此时的Rt并不是期望值。为什么采用折现因子呢？主要是简化循环和对于未来不确定性的考虑。

2.2.3 Value function

在这里插入图片描述

可以看出，无论是G还是V都是指从当前开始计算的奖励值，区别在于G是每一笔数据的值，而V是一个期望值。
G以及V的计算：
在这里插入图片描述
上图计算了以C1作为起点的每一笔实验数据的奖励值的计算。

当γ为0，表示计算奖励值时只考虑当前action带来的奖励值，既不看过去，也不管将来，所以如果上C1，奖励值就是-2，去酒吧奖励值为+1，参加考试并通过就获得奖励+10。
在这里插入图片描述
当γ=0.9时，会考虑之后所以的过程，只不过当过去10个时间步后权重编程0.34，20个时间步后权重只有0.12左右。假如我们现在在C2，首先会获得-2的奖励值，然后要加上后续的奖励值，并求期望，结果为0.9。
0.9=-2 + 0.9 0.84.1 # 0.9为折率，0.8为转移概率， 4.1 为C3的V

2.2.4 Bellman Equation

在这里插入图片描述

关于记法的说明：
第一种：s，a，||r，s，a，||r，s，a，||r…
第二种：s，a，r，||s，a，r，||s，a，r…
第一种记法认为采取action后环境变了，就进入到下一个时间步，之后的所有参数的下标都为t+1。此处的ppt采用第一种记法。有时候David会混用，比如下面。总之理解为即时奖励即可。

问题：假如同一个序列中，不同的时间步对应的同一个S，那么V相等吗？

简化写法：
在这里插入图片描述

因为是线型方程组，解为：

也就是说，V可以完全由γ，转移矩阵和不同状态对应的奖励值所确定。

2.3 Markov decision process(MDP)

2.3.1 Definition

条件：环境中所有的state都具有马尔科夫属性。定义为：
在这里插入图片描述
需要注意的是，此时转移矩阵和奖励值是计算都加上了action条件。

2.3.2 Policy

是state到采取所有可能action的概率的映射。
在这里插入图片描述
可以看出，MDP policy的输出只取决于当前的state，而与历史无关。而且具有时间稳定性:同一种状态即便出现在不同的还时间点，其输出是一样的。

假如，我们的模型符合MDP，那么其输出的状态序列说着(S,R) tuple都具有Markov属性。其计算过程需要用到概率论中的加法公式。