强化学习/动态规划：贝尔曼方程的解读 Bellman Equation & 贝尔曼方程组 / 贝尔曼最优方程

前言： 读书《Reinforcement Learning: An Introduction Second Edition》，读到第三章有限马尔科夫决策过程MDP中，提到了贝尔曼方程的理解。一开始我是有点懵逼的，现在看懂了其意思，在这里解释一下。

贝尔曼方程理解

下面讲解

$\begin{aligned} v_\pi (s) = & \mathbb{E}_\pi [G_t | S_t = s] \\ = & \mathbb{E}_{\pi} [R_{t+1} + \gamma G_{t+1} | S_t = s] \\ = & \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \\ = &\sum_a \pi(a|s) \sum_{s',r} p(s',r|s,a)[r + \gamma v_\pi (s')] \quad for \; all \; s \in S \end{aligned}$

如何推导。

首先，各符号意义：

上图中， $v_\pi(s)$ 表示在状态s下的，使用策略集 $\pi$ 的价值；
$G_t$ 就是在当前时刻 $t$ 所产生的“回报”，在有限时刻中，通常引入折扣率 $\gamma$ 的概念，将 $G_t$ 定义为 $G_t = R_{t+1} + \gamma G_{t+1}$ ，表示下一步对当前决策影响最大，时间越远，影响越小；
$\pi(a|s)$ 是策略，在我看来就是在状态 $s$ 下选择动作 $a$ 的概率；
$p()$ 是状态转移概率， $r$ 是回报。

$v_\pi(s) = \sum_a \pi(a|s) \sum_{s'} \sum_{r} p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right]$

上面的公式我有些费解，经过书上的提示，我认为写成下面这样更合适：

$v_\pi(s) = \sum_a \left( \pi(a|s) \sum_{s'} \sum_{r} \left( p(s', r| s,a) \left[ r + \gamma \mathbb{E}_\pi [G_{t+1} | S_{t+1} = s'] \right] \right) \right)$

在这里插入图片描述

可以通过上图进行理解，在时刻 $t$ ，其价值即各种选择的期望。而期望即是概率 $\times$ 对应事件值，在这里，期望即 该状态 $s$ 下选择动作 $a$ 的概率 $\pi(a|s)$ 乘上对应事件，即动作执行后，发生的一系列事件的期望。

贝尔曼方程组

$\begin{aligned} & v(s_1) = f(v(s_1), v(s_2), ..., v(s_n)) \\ & v(s_2) = f(v(s_1), v(s_2), ..., v(s_n)) \\ & ... \\ & v(s_n) = f(v(s_1), v(s_2), ..., v(s_n)) \\ \end{aligned}$

扫描二维码关注公众号，回复： 8917330 查看本文章

可见，这构造了一个关于 $v(s_i)$ 的n元1次方程组，可以求解每个状态的价值。

当然，这里 $v_\pi (s)$ 简写成了 $v(s)$ ，我们知道每个状态的价值是由策略决定的，策略糟糕，价值低。

贝尔曼最优方程

最优方程说明：最优策略下各个状态的价值一定等于这个状态下最优动作的期望回报。

假设只有2个状态（ $s_1$ 与 $s_2$ ），对于状态 $s_1$ ，其最优价值：

$v_* (s_1) = =\max \left\{ \begin{aligned} & p(s_1 | s_1, a_1) [r(s_1, a_1, s_1) + \gamma v_* (s_1)] + p(s_2 | s_1, a_1) [r(s_2, a_1, s_1) + \gamma v_* (s_2)] \\ & p(s_1 | s_1, a_2) [r(s_1, a_2, s_1) + \gamma v_* (s_1)] + p(s_2 | s_1, a_2) [r(s_2, a_2, s_1) + \gamma v_* (s_2)] \\ & ... \\ & p(s_1 | s_1, a_n) [r(s_1, a_n, s_1) + \gamma v_* (s_1)] + p(s_2 | s_1, a_n) [r(s_2, a_n, s_1) + \gamma v_* (s_2)] \\ \end{aligned} \right\}$

如上，是需要选择出一个/多个最优动作的。

如果将两个状态的方程式联立，则计算量急剧增大。

而对于状态多的更不用说，几乎不可计算。因此，要使用近似算。

PiperNest (同公众号)

发布了132 篇原创文章 · 获赞 36 · 访问量 1万+

私信关注