郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 我们提出了一个基于生物学的神经模型,能够在复杂的任务中执行强化学习.该模型的独特之处在于,它能够在一个动作.状态转换和奖励之间存在未知且可变的时间延迟的环境中,解决需要智能体执行一系列未得到奖励的动作以达到目标的任务.具体来说,这是第一个能够在半马尔可夫决策过程(Semi-Markov Decision Process,SMDP)框架内发挥作用的强化学习神经模型.我们认为,当前建模工作的这种扩展为人类决策的日益复杂的…