【David Silver-强化学习笔记】p2、马尔科夫模型

2.1 马尔科夫过程

Markov decision process 是用来对环境建模的模型,这个环境是fully observable的,即便是partially observable也可以转化为MDP。所以在强化学习领域,几乎所有的问题都可以转化为MDP模型。

2.1.1 Markov property

在这里插入图片描述

2.1.2 State Transition Matrix

假如agent有不同的状态,可以用状态转移矩阵,描述了不同状态之间转移的概率。如下图,每一行的概率和为1.
在这里插入图片描述

2.1.3 Definition of Markov Process

在这里插入图片描述
可以把马尔科夫过程描述成状态空间S和转移矩阵组成的二元组。

一个简单的例子,学生上课的状态转移图:
在这里插入图片描述
在这里插入图片描述
期间,有学生提问讲,如何应对随着时间的流逝,转移概率变化的情况,David提出的解决方案思路是动态的演变转移图,但这并不改变Markov的结构。

2.2 Markov Reward Process

2.2.1 definition

给马尔科夫过程加上状态转移对应的奖励值。这样将马尔科夫过程扩充为四元组(S,P,R,γ),其中R是即时奖励,γ为discount rate。
在这里插入图片描述

2.2.2 Gt

对于一个trajectory而言,获得的奖励G就是:
在这里插入图片描述
NOTE:此时的Rt并不是期望值。为什么采用折现因子呢?主要是简化循环和对于未来不确定性的考虑。

2.2.3 Value function

在这里插入图片描述

可以看出,无论是G还是V都是指从当前开始计算的奖励值,区别在于G是每一笔数据的值,而V是一个期望值。
G以及V的计算:
在这里插入图片描述
上图计算了以C1作为起点的每一笔实验数据的奖励值的计算。
在这里插入图片描述

当γ为0,表示计算奖励值时只考虑当前action带来的奖励值,既不看过去,也不管将来,所以如果上C1,奖励值就是-2,去酒吧奖励值为+1,参加考试并通过就获得奖励+10。
在这里插入图片描述
当γ=0.9时,会考虑之后所以的过程,只不过当过去10个时间步后权重编程0.34,20个时间步后权重只有0.12左右。假如我们现在在C2,首先会获得-2的奖励值,然后要加上后续的奖励值,并求期望,结果为0.9。
0.9=-2 + 0.9 0.84.1 # 0.9为折率,0.8为转移概率, 4.1 为C3的V

2.2.4 Bellman Equation

在这里插入图片描述
在这里插入图片描述
关于记法的说明:
第一种:s,a,||r,s,a,||r,s,a,||r…
第二种:s,a,r,||s,a,r,||s,a,r…
第一种记法认为采取action后环境变了,就进入到下一个时间步,之后的所有参数的下标都为t+1。此处的ppt采用第一种记法。有时候David会混用,比如下面。总之理解为即时奖励即可。

问题:假如同一个序列中,不同的时间步对应的同一个S,那么V相等吗?

简化写法:
在这里插入图片描述
在这里插入图片描述
因为是线型方程组,解为:
在这里插入图片描述
也就是说,V可以完全由γ,转移矩阵和不同状态对应的奖励值所确定。

2.3 Markov decision process(MDP)

2.3.1 Definition

条件:环境中所有的state都具有马尔科夫属性。定义为:
在这里插入图片描述
需要注意的是,此时转移矩阵和奖励值是计算都加上了action条件。

2.3.2 Policy

是state到采取所有可能action的概率的映射。
在这里插入图片描述
可以看出,MDP policy的输出只取决于当前的state,而与历史无关。而且具有时间稳定性:同一种状态即便出现在不同的还时间点,其输出是一样的。
在这里插入图片描述
假如,我们的模型符合MDP,那么其输出的状态序列说着(S,R) tuple都具有Markov属性。其计算过程需要用到概率论中的加法公式。

2.3.3 Value function

在这里插入图片描述
有两种Value function:分别为对state的评估和对给定state下action的评估。
举例而言:
在这里插入图片描述
计算的过程中只要考虑出度:
-1.3 = [(-2.3-1)+(2.7-2)]/2
2.7 = [(7.4-2)+0]/2

2.3.4 Bellman Expectation Equation

在这里插入图片描述在这里插入图片描述
Note:不管是V还是Q,本身都是G的期望,前面为什么还要加上E呢?
接下来,在两类Value function中构建关系:
在这里插入图片描述
解释:V是Q的期望值。
在这里插入图片描述

解释:Q是V的期望值乘以折损率 + 即时奖励
在这里插入图片描述
在这里插入图片描述
以上两幅图:在state确定是时,采取同一个action,可能进入不同的状态。
在这里插入图片描述
Note:此时的去酒吧是一个action而不是一个状态,去过酒吧之后可能会进入3中不同的状态,对应的模型图应该为:
在这里插入图片描述

2.3.5 Bellman Equation 矩阵形式

问题是转移矩阵的概率和policy的概率可以统一吗?可以的,总和为Pπ
在这里插入图片描述
在这里插入图片描述

2.3.6 Optimal Value Function

最明智的policy,基于state可以做出最佳的选择。
在这里插入图片描述
当真的找到optimal function的时候,我么可以说,已经解决了MDP问题。就像回到学生MDP的例子。
在这里插入图片描述
最佳的Value Function示意(即时奖励+下一状态的V)
在这里插入图片描述
最佳的Q_function示意图

2.3.7 Optimal Policy

在这里插入图片描述
在这里插入图片描述
最核心的思想就是,选action时,考虑奖励最大化。评估state时,求不同情况的均值。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

发布了20 篇原创文章 · 获赞 0 · 访问量 678

猜你喜欢

转载自blog.csdn.net/weixin_43522964/article/details/104505604