强化学习and脉冲神将网络

编程语言 2018-12-24 15:27:35 阅读次数: 0

强化学习

goal：learn how to take actions maximize reward
agent and environment
environment–>state–>agent–>action–>environment–>reward&next state–>agent
example :
1. cart-pole problem(倒立摆问题)
  list the Objective State Action & Reward
2. Robot locomotion
3. Atari Games
4. go
markov decision process （无记忆性）
S,A,R,P,Y
definition: Value function and Q-value function
how good is a state??? && how good a state-action pair???
Bellman equation：如果我们之前的状态选择是最大的，那么总体也是最优的
the optimal policy is a policy that every step is optimal
function Q is a very complex function and we want to use a neural network to approximate the function.
Training the Q-network:Experience Replay
弄一下放到一个集合里，再选取一个batch，以其为集合作为训练集。
论文关于Q-learning
Spiking NN 脉冲神经网络
脉冲神经网络
少数派报告

猜你喜欢

转载自blog.csdn.net/the__future/article/details/85228394

强化学习and脉冲神将网络

神经网络与强化学习

【强化学习】强化学习分类

【强化学习】强化学习介绍

[强化学习]强化学习基础

强化学习入门（三）将神经网络引入强化学习，经典算法 DQN

强化学习的学习～

强化学习学习

强化学习步骤

WAF 强化学习

强化学习介绍

强化学习

强化学习基础

强化学习的资料

强化学习-入门

强化学习总结

强化学习笔记

深度强化学习

强化学习（二）

强化学习概览

强化学习实例

强化学习综述

强化学习一

强化学习——Qlearning

强化学习二

强化学习浅谈

强化学习-Tips

强化学习资料

强化学习概要

强化学习--QLearning

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)