Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　动物会重复奖励的行为，但基于奖励的学习的生理基础仅得到了部分阐明。一方面，实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面，强化学习理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性（R-STDP）的最新模型已迈出了弥合两种方法之间差距的第一步，但仍面临两个问题。首先，强化学习通常是在不适合自然情况描述的离散框架中制定的。其次，生物学合理的R-STDP模型需要精确计算奖励预测误差，但神经元如何计算该价值仍有待证明。在这里，我们通过将Doya（2000）的连续时序差分（TD）学习扩展到以连续时间操作的具有连续状态和动作表示的执行者-评论者网络中脉冲神经元的情况，以提出这些问题的解决方案。在我们的模型中，评论者学会了实时预测期望的未来奖励。它的活动以及实际奖励，决定了向其自身和执行者传递神经调节性TD信号的能力，而后者负责选择动作。在仿真中，我们通过许多与报道的动物表现相符的试验，证明了这种架构可以解决与Morris类似水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外，从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。

Author Summary

　　每只狗的主人都知道，动物会重复能够获得奖励的行为。但是，基于奖励的学习所基于的大脑机制是什么？实验研究指出，神经元之间的突触连接具有可塑性，神经调节剂多巴胺起着重要作用，但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里，我们提出一个模型，解释奖励信号如何与突触可塑性相互作用，并使用该模型解决模拟的迷宫导航任务。我们的模型从强化学习的理论中扩展了一个概念：一组神经元形成一个“执行者”，负责选择动物的运动方向。另一组神经元，即“评论者”，其作用是预测智能体将获得的奖励，它利用实际奖励与预期奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫，以找到奖励。值得注意的是，我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。

Introduction

　　动物行为学习的许多实例，例如觅食中的寻路，或者——一个更加人为的例子——Morris水迷宫导航，可以解释为探索和反复试验学习。在两个例子中，动物最终学会的行为都是导致高报酬的行为。这些可以是食欲奖励（即食物）或更间接的奖励，例如在水迷宫中寻找平台的救济。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。
一方面，强化学习框架[1]为稀疏奖励事件的学习提供了一种理论和算法。强化学习的一种特别吸引人的形式是时差（TD）学习[2]。
在标准设置中，该理论假设代理通过在离散时间步长中选择适当的动作来在其环境中的状态之间移动。奖励是在状态和行动的某些结合中给出的，代理商的目的是选择其行动，以最大程度地获得其所获得的奖励。已经开发了几种算法来解决该问题的标准格式，其中一些算法已与尖峰神经系统一起使用。这些包括REINFORCE [3,4]和部分可观察到的Markov决策过程[5,6]，以防代理商对自己的状态不完全了解。
另一方面，实验表明，当发生奖励或奖励预测事件时，与愉悦相关的神经递质多巴胺会释放到大脑中[7]。多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。多巴胺最近还显示出可调节依赖于时机的可塑性（STDP），尽管尚不清楚诱导长期增强（LTP）和长期抑郁（LTD）的确切时机和多巴胺的要求[12]。 –14]。

将生物神经网络与强化学习联系起来的一个关键问题是强化学习的典型表述依赖于状态，动作和时间的离散描述，而尖峰神经元会在连续时间内自然进化，并且生物学上合理的“时间步伐”很难预见。较早的研究表明，可能涉及外部复位[15]或theta振荡[16]，但尚无证据支持这一点，并且尚不清楚为什么进化会比连续决策机制更倾向于较慢的决策步骤。实际上，生物学决策通常是通过连续时间中的整合过程来建模的[17]，其中当整合值达到阈值时触发实际决策。

Results

Spiking Neuron Critic

Linear Track Simulation

Spiking Neuron Actor

Water-Maze Simulation

Acrobot Task

Cartpole Task

Discussion

Biological Plausibility

Limitations

Synaptic Plasticity and Biological Relevance of the Learning Rule

Insights for Reward-Modulated Learning in the Brain

Models

Neuron Model

Acrobot Task

Cartpole Task

Actor Dynamics

Other Reward-Modulated Synaptic Learning Rules

Simulation Details

Derivation of δV/δw_ij

Derivation of the Squared TD Gradient Learning Rule

Noise Correlation Problem

Noise Correlation in the TD-LTP Rule

The Trouble with Continuous Q-Learning

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
DRL前沿之：Benchmarking Deep Reinforcement Learning for Continuous Control
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比 ...
论文笔记之：Asynchronous Methods for Deep Reinforcement Learning
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很 ...
Deep Reinforcement Learning with Iterative Shift for Visual Tracking
Deep Reinforcement Learning with Iterative Shift for Visual Tracking 2019-07-30 14:55:31 Paper: http ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
[Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...

随机推荐

PHP代码实现二分法查找
需求:定义一个函数接收一个数组对象和一个要查找的目标元素,函数要返回该目标元素在数组中的索引值,如果目标元素不存在数组中,那么返回-1表示. //折半查找法(二分法): 使用前提必需是有序的数组. / ...
python学习笔记1 -- 函数式编程之高阶函数使用函数作为返回值
使用函数作为返回值,看起来就很高端有木有,前面了解过函数名本身就是一个变量,就比如abs()函数,abs只是变量名,而abs()才是函数调用,那么我们如果把ads这个变量作为返回值返回会怎么样呢,这就 ...
PHP ftell() 函数
定义和用法 ftell() 函数返回在打开文件中的当前位置. 返回文件指针的当前位置,如果失败则返回 FALSE. 语法 ftell(file) 参数描述 file 必需.规定要检查的已打开文件. ...
CF804D Expected diameter of a tree 树的直径根号分治
LINK:Expected diameter of a tree 1e5 带根号log 竟然能跑过! 容易想到每次连接两个联通快快速求出直径其实是 \(max(D1,D2,f_x+f_y+1)\) ...
java.lang.ClassNotFoundException: org.apache.tomcat.util.security.Escape
tomcat-embed-jasper 依赖中不要有版本号技术交流群: 816227112
笨办法学python3代码练习ex23.py 字符串字节串字符编码
首先简单说一下字符编码的问题.平常遇到比较多的就是ASCII码(全称:美国信息交换标准码).ASCII码使用一个字节(8位)来表示一些常见的数字.英文字母以及一些控制字符.英语用128个符号编码就够了 ...
Python解决网吧收费系统，远控网吧电脑设备！
python破解网吧收费系统,远控网吧电脑设备! 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更 ...
Python爬虫获取百度贴吧图片
#!/usr/bin/python# -*- coding: UTF-8 -*-import urllibimport re文章来源:https://www.cnblogs.com/Axi8/p/57 ...
又一个小而美的Java Web框架: Solon!
Solon 是Java世界里一个新的极易上手的Web框架.参考过 Javalin . Spring 等很多现有框架的设计. 取名自海贼王里的角色,说是希能像他一样能打小.真的是小.最小的运行单位只有 ...
C#算法设计排序篇之05-归并排序（附带动画演示程序）
归并排序(Merge Sort) 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/683 访问. 归并排序是建立在归并操作 ...

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons

Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons的更多相关文章

随机推荐

热门专题