深度强化学习落地方法论训练篇：PPO、DQN、DDPG、学习率、折扣因子等

企业开发 2023-07-15 15:49:00 阅读次数: 0

为了保证 DRL 算法能够顺利收敛，policy 性能达标并具有实用价值，结果有说服力且能复现，需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得 GANs 刚火起来的时候，因为训练难度高，有人在 GitHub 上专门开了 repository，总结来自学术界和工业界的最新训练经验，各种经过或未经验证的 tricks 被堆砌在一起，吸引了全世界 AI 爱好者的热烈讨论，可谓盛况空前。在玄学方面，DRL 算法训练有得一拼。但毕竟在科研领域没有人真的喜欢玄学，只有久经考验的一般化规律才能凝结成知识被更多的人接受和推广。本篇接下来的内容融合了许多个人经验和各种参考资料，算是在 DRL 训练 “去玄学” 化上做出的一点微不足道的努力。

1. 训练开始前

1.1 环境可视化

如果条件允许，开始训练前最好先可视化一个随机环境，观察是否会出现你希望的状态（即上一篇里的主线事件）。如果靠随机选择 action 都能以一定概率探索到目标状态，那说明该任务难度比较低，心里就可以更有底；如果从来不会出现目标状态，说明该任务难度较高，需要在状态空间和 reward 函数设计时特别下功夫，从而更好地引导 agent 向目标状态前进。

1.2 数据预处理

你还可以实时打印出 state 和 reward，看看它们是否在合理范围内取值，是否存在幅值过大的情况࿰

猜你喜欢

转载自blog.csdn.net/sinat_39620217/article/details/131730507

深度强化学习落地方法论训练篇：PPO、DQN、DDPG、学习率、折扣因子等

深度强化学习落地方法论算法选择：DQN、DDPG、A3C、PPO、TD3

深度强化学习——从DQN到DDPG

深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例

深度强化学习DQN

深度强化学习—DQN

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

深度强化学习中的知识点-DQN、DDPG、AC-贪心算法

强化学习的DDPG

深度强化学习之DQN算法基础篇。

DQN,DDPG,PPO 等强化学习算法在人工智能中的未来发展方向：从大规模到小规模部署

深度强化学习 ( DQN ) 初探

深度强化学习之DQN实战

深度强化学习-DQN算法

深度强化学习——DQN算法原理

安装Airsim并在Airsim仿真环境下进行DDPG DQN强化学习算法无人机训练

强化学习DQN

强化学习之PPO

强化学习笔记：DDPG

强化学习--DDPG算法

深度强化学习实战-Tensorflow实现DDPG

深度强化学习——连续动作控制DDPG、NAF

深度强化学习-DDPG算法原理和实现

Keras深度强化学习--DPG与DDPG实现

深度强化学习-DDPG算法原理与代码

【深度强化学习】DQN：深度Q网络

【深度学习】强化学习之DQN、Double DQN、dueling DQN原理（转）

[强化学习实战]深度Q学习-DQN算法原理

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)