RL-赵-(九)-Policy-Based01：策略梯度方法（Policy Gradient Methods）【表格--＞函数(NN)】【REINFORCE algorithm＜--＞基于MC方法】 - 代码天地

RL-赵-(九)-Policy-Based01：策略梯度方法（Policy Gradient Methods）【表格--＞函数(NN)】【REINFORCE algorithm＜--＞基于MC方法】

企业开发 2023-12-17 01:51:53 阅读次数: 0

在这里插入图片描述

在这里插入图片描述

一、Basic idea of policy gradient
在这里插入图片描述

二、Metrics to deﬁne optimal policies
1、The average value
1.1 average state value

在这里插入图片描述

1.2 average one-step reward

2、Remarks

3、Excise

三、Gradients of the metrics

四、Gradient-ascent algorithm

在这里插入图片描述

1、REINFORCE algorithm

在这里插入图片描述

参考资料：
强化学习导论（十三）- 策略梯度法

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/135040435

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)