郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Abstract

  动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明。一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面,强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题。首先,强化学习通常是在不适合自然情况描述的离散框架中制定的。其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但神经元如何计算该价值仍有待证明。在这里,我们通过将Doya(2000)的连续时序差分(TD)学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况,以提出这些问题的解决方案。在我们的模型中,评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励,决定了向其自身和执行者传递神经调节性TD信号的能力,而后者负责选择动作。在仿真中,我们通过许多与报道的动物表现相符的试验,证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外,从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。

Author Summary

  每只狗的主人都知道,动物会重复能够获得奖励的行为。但是,基于奖励的学习所基于的大脑机制是什么?实验研究指出,神经元之间的突触连接具有可塑性,神经调节剂多巴胺起着重要作用,但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里,我们提出一个模型,解释奖励信号如何与突触可塑性相互作用,并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念:一组神经元形成一个“执行者”,负责选择动物的运动方向。另一组神经元,即“评论者”,其作用是预测智能体将获得的奖励,它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫,以找到奖励。值得注意的是,我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。

Introduction

  动物行为学习的许多实例,例如觅食中的寻路,或者——一个更加人为的例子——Morris水迷宫导航,可以解释为探索和反复试验学习。 在两个例子中,动物最终学会的行为都是导致高报酬的行为。 这些可以是食欲奖励(即食物)或更间接的奖励,例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面,强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。 强化学习的一种特别吸引人的形式是时差(TD)学习[2]。
在标准设置中,该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。 奖励是在状态和行动的某些结合中给出的,代理商的目的是选择其行动,以最大程度地获得其所获得的奖励。 已经开发了几种算法来解决该问题的标准格式,其中一些算法已与尖峰神经系统一起使用。 这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6],以防代理商对自己的状态不完全了解。
另一方面,实验表明,当发生奖励或奖励预测事件时,与愉悦相关的神经递质多巴胺会释放到大脑中[7]。 多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。 多巴胺最近还显示出可调节依赖于时机的可塑性(STDP),尽管尚不清楚诱导长期增强(LTP)和长期抑郁(LTD)的确切时机和多巴胺的要求[12]。 –14]。

将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态,动作和时间的离散描述,而尖峰神经元会在连续时间内自然进化,并且生物学上合理的“时间步伐”很难 预见。较早的研究表明,可能涉及外部复位[15]或theta振荡[16],但尚无证据支持这一点,并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。 实际上,生物学决策通常是通过连续时间中的整合过程来建模的[17],其中当整合值达到阈值时触发实际决策。

Results

Spiking Neuron Critic

Linear Track Simulation

Spiking Neuron Actor

Water-Maze Simulation

Acrobot Task

Cartpole Task

Discussion

Biological Plausibility

Limitations

Synaptic Plasticity and Biological Relevance of the Learning Rule

Insights for Reward-Modulated Learning in the Brain

Models

Neuron Model

Acrobot Task

Cartpole Task

Actor Dynamics

Other Reward-Modulated Synaptic Learning Rules

Simulation Details

Derivation of δV/δwij

Derivation of the Squared TD Gradient Learning Rule

Noise Correlation Problem

Noise Correlation in the TD-LTP Rule

The Trouble with Continuous Q-Learning

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

  1. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

    Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...

  2. Awesome Reinforcement Learning

    Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...

  3. DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control

    1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...

  4. 论文笔记之:Asynchronous Methods for Deep Reinforcement Learning

    Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...

  5. Deep Reinforcement Learning with Iterative Shift for Visual Tracking

    Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...

  6. 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

    转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...

  7. [Reinforcement Learning] Policy Gradient Methods

    上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...

  8. 18 Issues in Current Deep Reinforcement Learning from ZhiHu

    深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...

  9. 深度强化学习:入门(Deep Reinforcement Learning: Scratching the surface)

    RL的方案 两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...

随机推荐

  1. MyBatis动态插入的实现

    mybatis通过定义前缀后缀和分割字符来拼接sql语句,实现动态插入的功能 <insert id="addNewsTypeByNewsId"> insert into ...

  2. matplotlib常用基础知识

    linestyle(ls)线型参数表 常用color(c)参数表 marker标记符号表 plt常用方法表 plt.legend(loc=0)用于显示图例,图例的位置参数loc matplotlib常 ...

  3. Django学习路31_使用 locals 简化 context 写法,点击班级显示该班学生信息

    urls 中 进行注册 url(r'grades',views.grades) views 中编写函数 def grades(request): grades_list = Grade.objects ...

  4. Label 组件基本写法

    1.width,height 指定区域大小 文本 汉字 2 个字节 2.font 指定字体和字体大小 font(font_name,size) 3.image 显示在 Label 上的图像 支持 gi ...

  5. Python os.mkdir() 方法

    概述 os.mkdir() 方法用于以数字权限模式创建目录.默认的模式为 0777 (八进制).高佣联盟 www.cgewang.com 语法 mkdir()方法语法格式如下: os.mkdir(pa ...

  6. Python os.fchmod() 方法

    概述 os.fchmod() 方法用于改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限.高佣联盟 www.cgewang.com Unix上可用. 语法 fchmo ...

  7. EC R 87 div2 D. Multiset 线段树 树状数组 二分

    LINK:Multiset 主要点一下 二分和树状数组找第k大的做法. 线段树的做法是平凡的 开一个数组实现就能卡过. 考虑如树状数组何找第k大 二分+查询来判定是不优秀的. 考虑树状数组上倍增来做. ...

  8. OJ评测状态

    Pending/Waiting 排队等待中 Pending Rejudge 答案重判中 Compiling 正在编译 Running/Judging 运行判断中 Accepted(AC) 程序通过 C ...

  9. 软件tf版本是什么意思?

    对于iOS用户来说,有时候会听到tf版本软件,软件tf版本究竟是什么意思呢?它与正常在App Store中下载的软件有什么不同呢? 对于大多数iOS用户来说,一般都是从App Store中下载应用,凡 ...

  10. vue中一些常见的面试题

    前言 一位正在学习前端的菜鸟,虽菜,但还未放弃. 内容 1,说一下vue中的指令 答: ①,v-html:主要用来渲染html节点,其作用与原生的innerHtml基本一致 ②,v-text:主要用来 ...