强化学习基础四--Policy Gradient 理论推导

本文原文见我的知乎主页:https://www.zhihu.com/people/ikerpeng/

引图

这里写图片描述

这里写图片描述
这里写图片描述

这里写图片描述
这里写图片描述

这里写图片描述
这里写图片描述
参考:

  1. David Silver,Tutorial: Deep Reinforcement Learning,2016.
  2. Pieter Abbeel,Policy Optimization,2017.
  3. Hodo van Hasselt,Deep reinforcement Learning,2017.
  4. R. Sutton, RL:An introduction 2nd,2017

猜你喜欢

转载自blog.csdn.net/u012192662/article/details/78613800