此为《强化学习》第三章。

用户-环境接口

马尔科夫决策过程 (Markov Decision Process, MDP) 是建模在交互中学习的一种直观框架。学习者和决策者被称为用户 (Agent) ，其他和用户无关的但能和用户进行交互的部分被称为环境 (Environment) 。第 $t$ 时刻，用户处于状态 $S_t$ ，得到奖励 $R_t$ ，在某个策略下选择了行为 $A_t$ ，从而进入下一个状态 $S_{t+1}$ ，得到下一个状态的奖励 $R_{t+1}$ ，如下图所示。

注意，有的时候环境并不会根据 $(S_t,A_t)$ 提供一组固定的 $(S_{t+1},R_{t+1})$ ，而是按概率分布随机选择一个，因此有

p (s^{'}, r | s, a) ≐ Pr {S_{t + 1} = s^{'}, R_{t + 1} = r | S_{t} = s, A_{t} = a}

$p(s',r|s,a) \doteq \Pr \{ S_{t+1}=s', R_{t+1}=r | S_t=s, A_t=a\}$

概率显然满足

\sum_{s^{'} \in S} \sum_{r \in R} p (s^{'}, r | s, a) = 1, (\forall s \in S, a \in A)

$\sum_{s' \in \mathcal{S}} \sum_{r \in \mathcal{R}} p(s',r|s,a) = 1, ( \forall s \in \mathcal{S}, a \in \mathcal{A} )$

目标和奖励

在学习决策过程中，目标 (Goal) 是最大化累计奖励的期望值。

离散时刻下的回报

离散时刻 (Episodic) 下，我们可以把整个过程分解为一个个时刻。在 $t$ 时刻，我们定义期望回报 (Expected Return) $G_t$ 为未来各个时刻（直到最终时刻 $T$ ）得到的奖励，即

G_{t} ≐ R_{t + 1} + R_{t + 2} + . . . + R_{T}

$G_t \doteq R_{t+1} + R_{t+2} + ... + R_{T}$

通常，我们认为较近时刻得到的奖励应赋予更大的权重，因此我们给每个时刻的奖励加上一个衰减比例 (Discount Rate) $\gamma \in [0,1]$ ，即

G_{t} ≐ R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . = \sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k}

$G_t \doteq R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+1+k}$

显然有

G_{t} = R_{t + 1} + γ G_{t + 1}

$G_t = R_{t+1} + \gamma G_{t+1}$

离散和连续任务下的统一记号语言

略。

策略与值函数

类似上一篇中的定义，策略 (Policy) $\pi(a|s)$ 定义为状态 $s$ 下选择行为 $a$ 的概率，即

π (a | s) ≐ Pr {A_{t} = a | S_{t} = s}

$\pi(a|s) \doteq \Pr\{A_t=a|S_t=s\}$

在策略 $\pi$ 下状态 $s$ 的值函数 (Value Function) 定义为以状态 $s$ 为起点，然后遵循策略 $pi$ ，得到的期望回报（由于策略和环境都可能是概率分布，因此为回报也是一个概率分布），即

v_{π} (s) ≐ E_{π} [G_{t} | S_{t} = s] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k} | S_{t} = s]

$v_\pi(s) \doteq \mathbb{E}_\pi [ G_t | S_t=s ] = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+1+k} | S_t=s \right]$

类似的，我们也可以定义在策略 $\pi$ 下状态 $s$ 采取行为 $a$ 的值函数 (Action-Value Function) ，即

q_{π} (s, a) ≐ E_{π} [G_{t} | S_{t} = s, A_{t} = a] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k} | S_{t} = s, A_{t} = a]

$q_\pi(s,a) \doteq \mathbb{E}_\pi [ G_t | S_t=s, A_t=a ] = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R_{t+1+k} | S_t=s, A_t=a \right]$

将值函数的期望展开，得到

\begin{aligned} v_{π} (s) & = E_{π} [R_{t + 1} + γ G_{t + 1} | S_{t} = s] \\ = \sum_{a} π (a | s) \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ E [G_{t + 1} | S_{t + 1} = s^{'}]] \\ = \sum_{a} π (a | s) \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{π} (s^{'})] \end{aligned}

$\begin{align*} v_\pi(s) &= \mathbb{E}_\pi \left[ R_{t+1} + \gamma G_{t+1} | S_t=s \right] \\ &= \sum_{a} \pi(a|s) \sum_{s'} \sum_{r} p(s',r|s,a) \left[ r + \gamma \mathbb{E}[G_{t+1} | S_{t+1}=s'] \right] \\ &= \sum_{a} \pi(a|s) \sum_{s'} \sum_{r} p(s',r|s,a) \left[ r + \gamma v_\pi(s') \right] \end{align*}$

此为值函数的贝尔曼等式 (Bellman Equation) 。类似的，对于行为值函数，有

\begin{aligned} q_{π} (s, a) = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ \sum_{a^{'}} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'})] \end{aligned}

$\begin{align*} q_\pi(s,a) = \sum_{s'} \sum_{r} p(s',r|s,a) \left[ r + \gamma \sum_{a'} \pi(a'|s') q_\pi(s',a') \right] \end{align*}$

显然，状态值函数 $v_\pi(s)$ 和行为值函数 $q_\pi(s,a)$ 之间是紧密相联系的。对于状态值函数，有

\begin{aligned} v_{π} (s) & = E_{π} [G_{t} | S_{t} = s] \\ = \sum_{a} π (a | s) E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} π (a | s) q_{π} (s, a) \end{aligned}

$\begin{align*} v_\pi(s) &= \mathbb{E}_\pi [ G_t | S_t=s ] \\ &= \sum_{a} \pi(a|s) \mathbb{E}_\pi [ G_t | S_t=s, A_t=a ] \\ &= \sum_{a} \pi(a|s) q_\pi(s,a) \end{align*}$
对于行为值函数，有

\begin{aligned} q_{π} (s, a) & = E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ E_{π} [G_{t + 1} | S_{t + 1} = s^{'}]] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{π} (s^{'})] \\ = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s, A_{t} = a] \end{aligned}

$\begin{align*} q_\pi(s,a) &= \mathbb{E}_\pi [ G_t | S_t=s, A_t=a ] \\ &= \sum_{s'} \sum_{r} p(s',r|s,a) [r + \gamma \mathbb{E}_\pi[G_{t+1}|S_{t+1}=s']] \\ &= \sum_{s'} \sum_{r} p(s',r|s,a) [r + \gamma v_\pi(s')] \\ &= \mathbb{E}_\pi [R_{t+1} + \gamma v_\pi(S_{t+1}) | S_t=s, A_t=a] \end{align*}$

这一节中还提到了回溯图 (Backup Diagram) 的表示方法，它用空心圆表示状态和值函数，用实心圆表示行为和行为值函数，空心到实心的连线表示策略下选择各个行为的概率，实心到空心的连线表示环境中由上一状态和上一行为选择下一状态和奖励的概率。如下图所示。

可以用回溯图法表示出值函数和行为值函数的贝尔曼等式，如下图所示。

下一节中可以看到，在策略选择行为时，可以在空心到实心的张角中加一弧线，表示选择最大的期望回报作为下一步的行为。

最优策略与最优值函数

我们定义最优状态值函数 (Optimal State-Value Function) $v_*(s)$ 为最优策略 $\pi_*$ 下的状态值函数，最优策略即能使值函数取到最大值的策略，即

v_{*} (s) ≐ v_{π_{*}} (s) ≐ max_{π} v_{π} (s)

$v_*(s) \doteq v_{\pi_*}(s) \doteq \max_{\pi} v_\pi(s)$

类似地，我们定义最优行为值函数 (Optimal Action-Value Function) $q_*(s,a)$ 为最优策略下的行为值函数，即

q_{*} (s, a) ≐ q_{π_{*}} (s, a) ≐ max_{π} q_{π} (s, a)

$q_*(s,a) \doteq q_{\pi_*}(s,a) \doteq \max_{\pi} q_\pi(s,a)$

这里需要注意最佳策略 $\pi_*$ 和普通的策略 $\pi$ 之间的区别。普通的策略 $\pi$ 可以是一个概率分布，而最优策略则用了贪心算法，因此它的形式更加接近于 $\pi_*(s)=a_{best}$ 。

最优状态值函数和最优行为值函数也满足贝尔曼等式。推导如下（参考上一节中两种值函数的互推）：

\begin{aligned} v_{*} (s) & = max_{π} v_{π} (s) = max_{π} \sum_{a} π (a | s) q_{π} (s, a) = max_{a} q_{*} (s, a) \\ = max_{a} \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{*} (s^{'})] \\ q_{*} (s, a) & = max_{π} q_{π} (s, a) \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{*} (s^{'})] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ max_{a^{'}} q_{*} (s^{'}, a^{'})] \end{aligned}

$\begin{align*} v_*(s) &= \max_{\pi} v_\pi(s) = \max_{\pi} \sum_{a} \pi(a|s) q_\pi(s,a) = \max_a q_*(s,a) \\ &= \max_a \sum_{s'} \sum_{r} p(s',r|s,a) [r + \gamma v_*(s')] \\ q_*(s,a) &= \max_{\pi} q_\pi(s,a) \\ &= \sum_{s'} \sum_{r} p(s',r|s,a) [r + \gamma v_*(s')] \\ &= \sum_{s'} \sum_{r} p(s',r|s,a) [r + \gamma \max_{a'} q_*(s',a')] \end{align*}$

最优状态值函数和最优行为值函数也可以用回溯图表示，如下图。

最优化与近似

略。

参考文献

《Reinforcement Learning: An Introduction (second edition)》Richard S. Sutton and Andrew G. Barto

《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程