强化学习系列课程(二)马尔可夫决策过程

1. 马尔可夫过程

1
强化学习中,从初始状态到终止状态的序列过程被称为一个片段(episode)。下面举一个例子来说明状态转移矩阵的概念:2

2. 马尔可夫奖励过程

3
马尔可夫奖励过程是状态转移矩阵是已知的,并且赋予了状态转移的奖励值。这里没有动作的概念,一切都是无法改变的,只能从一个旁观者的角度去看待。
奖励值:对每个状态的评价,是回报值的期望值。
回报值:对每个片段的评价,是一个样本。 4
5
6
7
8
可以直接求解这个矩阵方程。

3. 马尔可夫决策过程

9
有动作就代表可以参与到这个马尔可夫过程中去。
10
11
12
13
14
15
16
17
18
19
20
在某个状态下的最优V函数肯定是选择一个当前收益最大的动作,然后再按照最优策略继续进行。
21
在某个状态下采取某种动作的最优Q函数,当下的动作的奖励肯定是不能改变了,只要在之后利用最优的状态值函数就可。
22
23

发布了87 篇原创文章 · 获赞 149 · 访问量 7万+

猜你喜欢

转载自blog.csdn.net/weixin_43795921/article/details/104505859