Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　动物会重复奖励的行为，但基于奖励的学习的生理基础仅得到了部分阐明。一方面，实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面，强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性（R-STDP）的最新模型已迈出了弥合两种方法之间差距的第一步，但仍面临两个问题。首先，强化学习通常是在不适合自然情况描述的离散框架中制定的。其次，生物学合理的R-STDP模型需要精确计算奖励预测误差，但神经元如何计算该价值仍有待证明。在这里，我们通过将Doya（2000）的连续时序差分（TD）学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况，以提出这些问题的解决方案。在我们的模型中，评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励，决定了向其自身和执行者传递神经调节性TD信号的能力，而后者负责选择动作。在仿真中，我们通过许多与报道的动物表现相符的试验，证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外，从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。

Author Summary

　　每只狗的主人都知道，动物会重复能够获得奖励的行为。但是，基于奖励的学习所基于的大脑机制是什么？实验研究指出，神经元之间的突触连接具有可塑性，神经调节剂多巴胺起着重要作用，但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里，我们提出一个模型，解释奖励信号如何与突触可塑性相互作用，并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念：一组神经元形成一个“执行者”，负责选择动物的运动方向。另一组神经元，即“评论者”，其作用是预测智能体将获得的奖励，它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫，以找到奖励。值得注意的是，我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。

Introduction

　　动物行为学习的许多实例，例如觅食中的寻路，或者——一个更加人为的例子——Morris水迷宫导航，可以解释为探索和反复试验学习。在两个例子中，动物最终学会的行为都是导致高报酬的行为。这些可以是食欲奖励（即食物）或更间接的奖励，例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面，强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。强化学习的一种特别吸引人的形式是时差（TD）学习[2]。
在标准设置中，该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。奖励是在状态和行动的某些结合中给出的，代理商的目的是选择其行动，以最大程度地获得其所获得的奖励。已经开发了几种算法来解决该问题的标准格式，其中一些算法已与尖峰神经系统一起使用。这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6]，以防代理商对自己的状态不完全了解。
另一方面，实验表明，当发生奖励或奖励预测事件时，与愉悦相关的神经递质多巴胺会释放到大脑中[7]。多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。多巴胺最近还显示出可调节依赖于时机的可塑性（STDP），尽管尚不清楚诱导长期增强（LTP）和长期抑郁（LTD）的确切时机和多巴胺的要求[12]。 –14]。

将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态，动作和时间的离散描述，而尖峰神经元会在连续时间内自然进化，并且生物学上合理的“时间步伐”很难预见。较早的研究表明，可能涉及外部复位[15]或theta振荡[16]，但尚无证据支持这一点，并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。实际上，生物学决策通常是通过连续时间中的整合过程来建模的[17]，其中当整合值达到阈值时触发实际决策。

Results

Spiking Neuron Critic

Linear Track Simulation

Spiking Neuron Actor

Water-Maze Simulation

Acrobot Task

Cartpole Task

Discussion

Biological Plausibility

Limitations

Synaptic Plasticity and Biological Relevance of the Learning Rule

Insights for Reward-Modulated Learning in the Brain

Models

Neuron Model

Acrobot Task

Cartpole Task

Actor Dynamics

Other Reward-Modulated Synaptic Learning Rules

Simulation Details

Derivation of δV/δw_ij

Derivation of the Squared TD Gradient Learning Rule

Noise Correlation Problem

Noise Correlation in the TD-LTP Rule

The Trouble with Continuous Q-Learning

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
[Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...

随机推荐

Python之自定义函数
函数 1.定义函数在Python中定义一个函数要使用def语句,一次写出函数名.括号.括号中的的参数和冒号,然后在缩进块中编写函数体,函数的返回值用return返回.如下所示: def 函数名(参数 ...
python map() filter() reduce()函数的用法以及实例
map() 看一下我的终端咋说: map()的函数用法: map(function, iterable, ...) 看一下具体例子: 注意的是一定要强制转化一下才能输出也可以写匿名函数: (mark ...
Day15_阿里短信
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"乐优商城"获取视频和教程资料! b站在线视频 1.开通 ...
smartSVN9.2.2 for mac 安装与破解
原文链接:https://www.jianshu.com/p/bb87154e0459 近段时间使用svn进行项目管理,开始使用的是cornerstone,但是用过程中出现一个操作Bug,一.在xco ...
goroutine调度源码阅读笔记
以下为本人阅读goroutine调度源码随手记的笔记,现在还是一个个知识点的形式,暂时还没整理,先发到这里,一点点更新: 1). runq [256]guintptr P 的runable队列最大 ...
21天速成python电子书pdf|超级厉害的书内附百度云链接可直接下载|
python的学习书籍小编看过很多,但是这本<21天学通python>真的是堪称极品!本书的作者团队成员为一线开发工程师.资深编程专家或专业培训师,在编程开发方面有着丰富的经验,并已出版过 ...
时间序列ARIMA模型
时间序列ARIMA模型 1.数据的平稳性与差分法让均值和方差不发生明显的变化(让数据变平稳),用差分法 2.ARIMA模型-----差分自回归平均移动模型求解回归的经典算法:最大似然估计.最小二乘 ...
Skill 如何Flatten一个list
https://www.cnblogs.com/yeungchie/ code unless(fboundp('ycFlattenList) procedure(ycFlattenList(listi ...
JavaScript Object的复制
var obj = { a: 1, b: 2, c: { d: 3, e: 4, f: function () { console.log("对象复制"); } } } 1. fo ...
7.12 NOI模拟赛生成树装压dp vector装压
LINK:生成树这场比赛我打的真失败 T3是比较容易的却一直刚那道"数论" 10分其实搜一下全排列. 30分容易想到对边进行装压dp. 不过存在一些细节可以对于一个连通块的 ...

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

随机推荐

热门专题