第二课：动态规划 - 代码天地

第二课：动态规划

其他 2018-09-05 05:11:34 阅读次数: 0

1.什么是动态规划？

之前提到解决序列决策问题有两种手段----学习与规划
当前有一个精确的环境模型时，可以用动态规划去解
编程算法中也有动态规划的概念，与其相似
总的来说，就是将问题分解成子问题，通过解决子问题，来解决原问题

动态：针对序列问题

规划：优化，得到策略

贝尔曼方程是关键

2.动态规划可以解决什么问题？

动态规划是一种解决问题的方法，什么样的问题能使用动态规划去解？

这样的问题具有以下两种性质：

最优结构：①满足最优原理；②最优的解可以被分解成子问题的最优解
交叠式子问题：①子问题能够被多次重复；②子问题的解要能够被缓存并再利用

恰好MDP就满足这两个性质：

贝尔曼方程是递归的形式，把问题分解成子问题
值函数有效的存储了子问题的解，并能够再利用

3.强化学习中的动态规划

使用动态规划解决强化学习问题时，要求知道MDP的所有元素

针对评价：

针对优化：

4.动态规划的其他应用：

动态规划不仅仅用来解强化学习问题，是运筹学的一个分支。
分类有：线性动规，区域动规，树形动规，背包问题等、
应用例子：最短路径问题，二分查找树，网络流优化问题等。

5.策略评价问题

利用贝尔曼期望方程的迭代式策略评价：

算法 1 同步备份下的迭代式策略评价算法

for k = 1, 2, · · · do
for 所有的状态 s ∈ S do
使用迭代式更新值函数 vk+1(s)
end for
end for

6.策略评价的例子

假设γ=1；
14个普通状态，2个终止状态
走出边界的动作会导致状态不变
在走到终止状态前，任何动作都会导致-1的奖励
给定一随机策略，π(a|s) = 0.25, ∀s, a

猜你喜欢

转载自blog.csdn.net/DeepOscar/article/details/81194348

第二课：动态规划

第二课

HTML第二课——css

Django--第二课

安卓第二课

Kettle第二课

第二课笔记

python自学第二课！

SQL：第二课

python第二课

nginx 第二课

2018.6.1 Python第二课

Java学习第二课

易语言第二课

初学freertos第二课

python学习第二课

第二课 DLL注入

SpringMVC学习第二课

node第二课

PHP的学习第二课

第二课数据的艺术

第二课PHP优点

webGL第二课

c语言第二课

linux 第二课

VBA学习第二课

第二课：js数组

第二课生活智慧

ajax第二课：ajax

第二课.IDA入门

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)