ML读书笔记（强化学习） - 代码天地

ML读书笔记（强化学习）

其他 2019-10-28 10:51:17 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/smartcat2010/article/details/102768083

强化学习中，agent的每个action, 只能收到一个间接的反馈（进入到的状态，N步之后可能才有正/负Reward）；

A.

强化学习的核心任务：学习一个从状态空间S到动作空间A的映射，最大化累积收益。

价值迭代：每轮更新所有状态的状态价值函数和动作价值函数的值，等于是策略得到了更新；

策略迭代：每轮内部，所有状态使用一开始的策略，只更新状态价值函数，直至收敛，该轮结束再更新动作价值函数和策略；

B. 深度Q-Learning

走步时，用 $\varepsilon -greedy$ ，在探索和利用之间作平衡；（评估 $Q(S_{t},a)$ 用的是 $max{Q(S_{t+1},a)}$ ）

连续4帧的图像堆叠，作state;

用MSE做损失函数，执行梯度下降更新Q网络；

先探索很多帧之后，再开始从库里抽样进行训练，当前走的帧和该步抽样训练的样本无关系；

C. 策略梯度

D. 探索与利用

$\varepsilon -greedy$ 的不足：探索时，对所有菜都均等概率的试探；应该把重心放到试吃次数少的菜上

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/102768083

ML读书笔记（强化学习）

《强化学习Sutton》读书笔记（三）——动态规划

强化学习（RLAI）读书笔记第八章表格方法的规划与学习

《强化学习Sutton》读书笔记（七）——列表法的计划与学习（Planning and Learning with Tabular Methods）

《强化学习Sutton》读书笔记（五）——时序差分学习（Temporal-Difference Learning）

强化学习：入门第一章读书笔记

强化学习（RLAI）读书笔记第二章多臂老虎机

强化学习（RLAI）读书笔记第一章介绍

《强化学习Sutton》读书笔记（一）——多臂赌博机

强化学习（RLAI）读书笔记第十二章资格迹（Eligibility Traces）

强化学习（RLAI）读书笔记第十一章 Off-policy Methods with Approximation

强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation

强化学习（RLAI）读书笔记第九章On-policy Prediction with Approximation

强化学习（RLAI）读书笔记第五章蒙特卡洛方法

强化学习（RLAI）读书笔记第四章动态规划

强化学习（RLAI）读书笔记第十三章策略梯度方法（Policy Gradient Methods）

强化学习（RLAI）读书笔记第十六章Applications and Case Studies（alphago）

强化学习（RLAI）读书笔记第十六章Applications and Case Studies（不含alphago）

《强化学习Sutton》读书笔记（六）——n步Bootstrapping（n-step Bootstrapping）

《强化学习Sutton》读书笔记（四）——蒙特卡洛方法（Monte Carlo Methods）

三、人工智能简史之从遗传算法到强化学习（读书笔记）

ML读书笔记（集成学习）

强化学习（RLAI）读书笔记第六章差分学习（TD-learning）

《强化学习Sutton》读书笔记（二）——有限马尔科夫决策过程

读书笔记 - 多智能体强化学习在城市交通网络信号控制方法中的应用综述

强化学习（RLAI）读书笔记第七章n步自举（n-step Bootstrapping）

强化学习笔记

强化学习学习笔记

强化学习的学习笔记

强化学习（RLAI）读书笔记第三章有限马尔科夫决策过程（finite MDP）

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)