郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
我们提出了一个基于生物学的神经模型,能够在复杂的任务中执行强化学习。该模型的独特之处在于,它能够在一个行动、状态转换和奖励之间存在未知和可变时间延迟的环境中,解决需要智能体执行一系列未经奖励的操作以达到目标的任务。具体来说,这是第一个能够在半马尔可夫决策过程(Semi-Markov Decision Process,SMDP)框架内发挥作用的强化学习神经模型。我们认为,当前建模工作的这种扩展为人类决策的日益复杂的模型奠定了基础。
Keywords: 强化学习;神经模型;SMDP
1. Introduction
2. Background
3. Methods
3.1 Model architecture
3.2 Representing and computing with neural activities
3.3 Learning
3.4 Error calculation
4. Results
5. Discussion