1. 马尔可夫过程
强化学习中,从初始状态到终止状态的序列过程被称为一个片段(episode)。下面举一个例子来说明状态转移矩阵的概念:
2. 马尔可夫奖励过程
马尔可夫奖励过程是状态转移矩阵是已知的,并且赋予了状态转移的奖励值。这里没有动作的概念,一切都是无法改变的,只能从一个旁观者的角度去看待。
奖励值:对每个状态的评价,是回报值的期望值。
回报值:对每个片段的评价,是一个样本。
可以直接求解这个矩阵方程。
3. 马尔可夫决策过程
有动作就代表可以参与到这个马尔可夫过程中去。
在某个状态下的最优V函数肯定是选择一个当前收益最大的动作,然后再按照最优策略继续进行。
在某个状态下采取某种动作的最优Q函数,当下的动作的奖励肯定是不能改变了,只要在之后利用最优的状态值函数就可。