David Silver深度强化学习第4课-免模型预测

https://www.bilibili.com/video/av9831252
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/MC-TD.pdf

Model-Free reinforcement learning

在这里插入图片描述
在这里插入图片描述

方法1:Mente-Carlo Reinforement learning

(MC方法是最有效,应用最广泛的方法)
MC methods learn directly from episodes of experience(直接从经验片段中学习,不需要MDP的转移概率或回报等相关信息,这就是model-free)
在这里插入图片描述
(MC方法使用的是经验上的renturn而不是expect的return。)

MC policy evaluation分类:

  1. First-visit MC policy evaluation
    The first time-step t that state s is visited in an episode,
  2. Every-visit
    在这里插入图片描述
    我们可以利用策略产生很多次试验,每次试验(an episode)都是从任意的初始状态开始直到终止状态.
    The mean µ1, µ2, … of a sequence x1, x2, … can be computed
    incrementally,µk 在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

Monte-Carlo vs TD

Monte-Carlo是每一时刻的结果都要向实际的结果上更新
TD是一直更新猜想,当最后更新完成时也就达到了最终结果。

Advantages and Disadvantages of MC vs. TD

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41913844/article/details/83047871