Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!


Abstract
动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明。一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面,强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题。首先,强化学习通常是在不适合自然情况描述的离散框架中制定的。其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但神经元如何计算该价值仍有待证明。在这里,我们通过将Doya(2000)的连续时序差分(TD)学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况,以提出这些问题的解决方案。在我们的模型中,评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励,决定了向其自身和执行者传递神经调节性TD信号的能力,而后者负责选择动作。在仿真中,我们通过许多与报道的动物表现相符的试验,证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外,从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。
Author Summary
每只狗的主人都知道,动物会重复能够获得奖励的行为。但是,基于奖励的学习所基于的大脑机制是什么?实验研究指出,神经元之间的突触连接具有可塑性,神经调节剂多巴胺起着重要作用,但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里,我们提出一个模型,解释奖励信号如何与突触可塑性相互作用,并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念:一组神经元形成一个“执行者”,负责选择动物的运动方向。另一组神经元,即“评论者”,其作用是预测智能体将获得的奖励,它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫,以找到奖励。值得注意的是,我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。
Introduction
动物行为学习的许多实例,例如觅食中的寻路,或者——一个更加人为的例子——Morris水迷宫导航,可以解释为探索和反复试验学习。 在两个例子中,动物最终学会的行为都是导致高报酬的行为。 这些可以是食欲奖励(即食物)或更间接的奖励,例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面,强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。 强化学习的一种特别吸引人的形式是时差(TD)学习[2]。
在标准设置中,该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。 奖励是在状态和行动的某些结合中给出的,代理商的目的是选择其行动,以最大程度地获得其所获得的奖励。 已经开发了几种算法来解决该问题的标准格式,其中一些算法已与尖峰神经系统一起使用。 这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6],以防代理商对自己的状态不完全了解。
另一方面,实验表明,当发生奖励或奖励预测事件时,与愉悦相关的神经递质多巴胺会释放到大脑中[7]。 多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。 多巴胺最近还显示出可调节依赖于时机的可塑性(STDP),尽管尚不清楚诱导长期增强(LTP)和长期抑郁(LTD)的确切时机和多巴胺的要求[12]。 –14]。
将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态,动作和时间的离散描述,而尖峰神经元会在连续时间内自然进化,并且生物学上合理的“时间步伐”很难 预见。较早的研究表明,可能涉及外部复位[15]或theta振荡[16],但尚无证据支持这一点,并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。 实际上,生物学决策通常是通过连续时间中的整合过程来建模的[17],其中当整合值达到阈值时触发实际决策。
Results
Spiking Neuron Critic
Linear Track Simulation
Spiking Neuron Actor
Water-Maze Simulation
Acrobot Task
Cartpole Task
Discussion
Biological Plausibility
Limitations
Synaptic Plasticity and Biological Relevance of the Learning Rule
Insights for Reward-Modulated Learning in the Brain
Models
Neuron Model
Acrobot Task
Cartpole Task
Actor Dynamics
Other Reward-Modulated Synaptic Learning Rules
Simulation Details
Derivation of δV/δwij
Derivation of the Squared TD Gradient Learning Rule
Noise Correlation Problem
Noise Correlation in the TD-LTP Rule
The Trouble with Continuous Q-Learning
Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章
- Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
- Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
- DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...
- 论文笔记之:Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
- Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
- 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
- [Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
- 18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
- 深度强化学习:入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案 两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...
随机推荐
- Mybatis-Plus中Wrapper的方法
public interface EntityService extends IService<TbEntity>{ }entityService.update(entity,Condit ...
- 使用 MySQLi 和 PDO 向 MySQL 插入多条数据
PHP MySQL 插入多条数据 使用 MySQLi 和 PDO 向 MySQL 插入多条数据 mysqli_multi_query() 函数可用来执行多条SQL语句. 以下实例向 "MyG ...
- PHP strcasecmp() 函数
实例 比较两个字符串(不区分大小写): <?php高佣联盟 www.cgewang.comecho strcasecmp("Hello world!","HELLO ...
- Spring Boot必备技能之Starter自定义
本文摘自于<Spring Cloud微服务 入门 实战与进阶>一书. 作者:尹吉欢 Spring Boot的方便体现在简化了很多繁琐的配置,对开发人员来说是一个福音,通过引入各种Spri ...
- Spring学习总结(3)-了解Spring框架
Spring的核心Jar包 在Spring4的官方文档里,提到了Sping的核心包是:spring-context,只要引用了这个jar包,就可以实现Spring90%的基础功能.maven引用如下: ...
- 牛逼了,利用Python实现“天眼系统”,只要照片就能了解个人信息
- LinuX操作系统基础------> 用户管理,grep搜索
用户管理 用户组管理 字符管理和grep搜索 1.用户管理: LinuX是一个多用户,多任务的操作系统,可以让多个用户使用,这个账号可以帮助对用户进行追踪,必须在初始化的时候设置好自己的密码 1-1配 ...
- spring data jpa 之 通用接口
园主这一阵子接到一个需求,就是将spring data jpa再进行封装,实现通过调用一个baseRepository,来实现每个类的增删改查操作,结合spring data jpa 原有的便捷操作, ...
- Java并发--基础知识
一.为什么要用到并发 充分利用多核CPU的计算能力 方便进行业务拆分,提升应用性能 二.并发编程有哪些缺点 频繁的上下文切换 时间片是CPU分配给各个线程的时间,因为时间非常短,所以CPU不断通过切换 ...
- 算法学习笔记:最近公共祖先(LCA问题)
当我们处理树上点与点关系的问题时(例如,最简单的,树上两点的距离),常常需要获知树上两点的最近公共祖先(Lowest Common Ancestor,LCA).如下图所示: 2号点是7号点和9号点的最 ...