S14.1增强学习(Reinforcement Learning,RL)

增强学习(强化学习)架构如下图所示。在建立增强学习过程中，有一个代理Agent和一个环境增强Environment。环境赋予代理一个状态State，代理将采取行动Action，然后环境将回馈一个奖励Reward，然后给出下一个状态。这一过程将会继续循环下去，直到环境给出一个终止状态，结束学习过程。增强学习应用有车载立柱问题Cart-Pole Problem，机器人运动Robot Locomotion，Atari Games，Go等等。

S14.2马尔科夫决策过程Markov Decision Processes

如何在数学上公式化强化学习问题呢？MDP是对增强学习问题的数学表达。MDP满足Markov性质，即当前状态完全刻画了世界的状态。MDP由一组对象定义，如下所示。其中P表示下一个状态的转移概率分布，即给定一个状态行为组，代理将采取的动作。 $\gamma$ 是折扣因子，它是用来对近期奖励以及远期奖励分配权重的。

MDP的工作方式如下：

基于MDP工作方式，定义一个策略 $\pi$ 。 $\pi$ 是一个从状态到行为的函数，它指定了在每个状态下要采取的行动，可以是确定性的，也可以是随机的。那么MDP的目标就是，要找到最佳决策 $\pi^{*}$ ，能够最大化奖励之和，即最大化如下公式：

$\sum_{t>0}^{ }\gamma^{t}r_{t}$

最佳策略所提供的信息是在任意的给定状态下，应该采取什么行动来最大化将得到的奖励总和。在增强学习中，初始状态和转移概率分布p都是随机的，而p会给出下一个状态的分布。那么如何处理这种随机性？最大化预期的奖励总和。那么最优决策公式：

$\pi ^{*}=arg \; \underset{\pi}{max}E[\sum_{t>0}^{ }\gamma^{t}r_{t}|\pi] \: with \: s_{0}\sim p(s_{0}),a_{t}\sim \pi(\cdot |s_{t}),s_{t+1}\sim \pi(\cdot |s_{t},a_{t})$

轨迹：例如 $s_{0},a_{0},r_{0},s_{1},a_{1},r_{1},...$

值函数Value function：表明当前状态有多好。

Q值函数Q-value functon：表明在状态s时，采取行动a有多好。如何求解这个最优策略。

KKALL1314

发布了71 篇原创文章 · 获赞 6 · 访问量 3万+

私信关注

2017CS231n笔记_S14深度增强学习

目录

S14.1增强学习(Reinforcement Learning,RL)

S14.2马尔科夫决策过程Markov Decision Processes

猜你喜欢