Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN - 代码天地

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

其他 2019-12-31 19:50:53 阅读次数: 0

论文地址

基本思路就是
\(Q(s,a)\)的值既和state有关，又和action有关。但是两种"有关"的程度不一样，或者说影响力不一样。
对于\(Q(s,a)\)　我们希望它能反应出两个方面的差异。

对于当前状态s,能够很好的区分不同action的影响
对于不同状态s,能够很好的区分不同state的影响

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + A(s,a;\theta,\alpha)\)

但是只使用上面的公式，神经网络可能会达不到我们想要的结果，我们不能直接接触到\(V,A\)，只是得到的他们的和（结果很可能就跟DQN是一样的）。但是我们希望A能够体现动作对value 的影响 ,V 能够体现状态对value的影响。
所以将公式改为下面这样。这样\(Q(s,a_*)=V(s)\),这样V就真的反应了状态值，A就是体现不同action 的advantage
\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + （A(s,a;\theta,\alpha)－\underset{a'\in |A|}{max}A(s,a';\theta,\alpha)）\)

另一种方式如下，这种方式，V不能体现state value 但是只是一个小小的偏移，论文中说这样的实现更加稳定，效果基本相同。

\(Q(s,a;\theta,\alpha, \beta) = V(s;\theta,\beta) + （A(s,a;\theta,\alpha)－\frac{1}{|A|}\sum_{a'\in |A|}A(s,a';\theta,\alpha)）\)

猜你喜欢

转载自www.cnblogs.com/Lzqayx/p/12127043.html

Dueling Network Architectures for Deep Reinforcement Learning: DuelingDQN

论文笔记：Dueling Network Architectures for Deep Reinforcement Learning

【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

（论文阅读笔记）Network planning with deep reinforcement learning

Relational Deep Reinforcement Learning

022 Deep Reinforcement Learning

Swapout: Learning an ensemble of deep architectures

Deep Reinforcement Learning is a waste of time

Random Thoughts on Deep Reinforcement Learning

# Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning

CAPES:Unsupervised Storage Performance Tuning Using Neural Network-Based Deep Reinforcement Learning

Deep Reinforcement Learning with Double Q-learning

Neural Network and Deep Learning

Deep Reinforcement Learning: Pong from Pixels

Deep Reinforcement Learning 深度增强学习资源

Deep Reinforcement Learning 基础知识

Deep Reinforcement Learning （paper reading notes）

解读continuous control with deep reinforcement learning（DDPG）

Playing Atari with Deep Reinforcement Learning论文解读

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Deep Reinforcement Learning with Iterative Shift for Visual Tracking

算法笔记：Playing Atari with Deep Reinforcement Learning

李宏毅Deep Reinforcement Learning笔记

Exploration Strategies in Deep Reinforcement Learning (2)

Exploration Strategies in Deep Reinforcement Learning (1)

Deep Reinforcement Learning for AutomatedStock Trading: An Ensemble Strategy

DQN Tutorial – Deep Reinforcement Learning with PyTorch

Deep Learning-Deep feedforward network

强化学习资源——Hands-On Reinforcement Learning、Deep Reinforcement Learning Hands-On等

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)