1. 前言

在前面的章节中我们介绍了时序差分算法(TD)和Q-Learning,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不动作空间和状态太大十分困难。所以论文Human-level control through deep reinforcement learning提出了用Deep Q Network(DQN)来拟合Q-Table,使得Q-Table的更新操作包在一个黑盒里面,使强化学习的过程更加的通用化,自动化。

2. DQN的结构

我们可以把DQN理解为在Q-Learning的整体框架大体不改的情况下,对于\((S,A)->R\)奖励的获取方式的一种改进。

DQN有两个大的创新点:

  1. Replay Buffer样本回放缓冲区或者叫做(Experience replay)
  2. Target Network目标网络

2.1 Replay Buffer

使用DQN模型代替Q-Table会遇到两个问题

  1. 交互得到的序列存在一定的相关性:交互序列中的状态行动存在着一定的相关性,而对于基于最大似然法的机器学习模型来说,我们有一个很重要的假设:训练样本是独立且来自相同分布的,一旦这个假设不成立,模型的效果就会大打折扣。而上面提到的相关性恰好打破了独立同分布的假设,那么学习得到的值函数模型可能存在很大的波动。
  2. 交互数据的使用效率:采用梯度下降法进行模型更新时,模型训练往往需要经过多轮迭代才能收敛,每一次迭代,需要使用一定数量的样本计算梯度,如果每次计算的样本在计算一次梯度后就被丢弃,那么我们就需要花费更多的时间与环境交互并收集样本。

Replay Buffer结构图:

总的来说,Replay Buffer含了收集样本和采样样本两个过程。

  1. 收集样本:按照时间先后顺序存入结构中,如果Replay Buffer经存满样本,那么新的样本会将时间上最久远的样本覆盖。
  2. 采样样本:如果每次都取最新的样本,那么算法就和在线习相差不多;般来说,Replay Buffer会从缓存中均匀地随机采样一批样本进行学习。

均匀采样的好处是什么呢?前面提到我们交互得到的序列在时间维度上存在一定的相关性。我们希望学习得到的值函数能够表示在当前状态行动下的长期收益的期望,然而每一次交互得到的序列,只能代表当前状态一行动下的一次采样轨迹,并不能代表所有可能的轨迹。这样估计的结果就和期望的结果存在一定的差距。随着交互时间不断拉长,这个差距的累积会越来越大。如果完全使用序列的估计值进行训练, 某一轮训练时模型会朝着一个序列的估计训练,另一轮训练又会朝着另一个序列的估计训练,那么模型很容易产生较大波动采用均匀采样后,每次训练的样本通常来自多次交互序列,这样单一序列的波动就被减轻很多,训练效果也就稳定了很多。同时,一份样本也可以被多次训练,提高了样本的利用。

2.2 Target Network

模型不稳定的另外一个原因来自算法本身,Q-Learning的计算公式可以看出,算法可以分成如下两个步骤:

  1. 计算当前的状态行动下的价值目标值:\(\nabla{q(s,a)}=\gamma(s^{'})+max_{a^{'}}q^{T-1}(s^{'},a^{'})\)
  2. 网络模型的更新:\(q^T(s,a)=q^{T-1}(s,a)+\frac{1}{N}[\nabla{q(s,a)}-q^{T-1}(s,a)]\)

可以看出模型通过当前时刻的回报和下一时刻的价值估计进行更新,这里存在一些隐患,前面提到数据样本差异可能造成一定的波动,由于数据本身存在着不稳定性 每一轮轮迭代都可能产生一些波动,如果按照上面的计算公式,这些波动会立刻反映到下一个迭代的计算中,这样我们就很难得到一个平稳的模型。为了减轻相关问题带来的影响,我们要尽可能地将两个部分解耦。所以引入了Target Network,而原本的模型被称为Behavior Network。

  1. 在训练开始时,两个模型使用完全相同的参数。
  2. 在训练过程中, Behavior Network负责与环境交互,得到交互样本。
  3. 在学习过程中,由Q-Learning得到的目标价值由Target Network算得到;然后用它和Behavior Network的估计值进行比较得出目标值并更新Behavior Network。
  4. 每当训练完成一定轮数的迭代,Behavior Network模型的参数就会同步给Target Network,这样就可以进行下一个阶段的学习了。
  5. 通过使用 Target Network,计算目标价值的模型在一段时间内将被固定,这样模型可以减轻模型的波动性。

2.3 DQN的算法过程

(欢迎转载,转载请注明出处。欢迎沟通交流: 339408769@qq.com)

Deep Q Network(DQN)原理解析的更多相关文章

  1. 强化学习系列之:Deep Q Network (DQN)

    文章目录 [隐藏] 1. 强化学习和深度学习结合 2. Deep Q Network (DQN) 算法 3. 后续发展 3.1 Double DQN 3.2 Prioritized Replay 3. ...

  2. 【转】【强化学习】Deep Q Network(DQN)算法详解

    原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...

  3. 深度增强学习--Deep Q Network

    从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 import sys import gym import pylab import random import n ...

  4. AlphaGo的前世今生(一)Deep Q Network and Game Search Tree:Road to AI Revolution

    这一个专题将会是有关AlphaGo的前世今生以及其带来的AI革命,总共分成三节.本人水平有限,如有错误还望指正.如需转载,须征得本人同意. Road to AI Revolution(通往AI革命之路 ...

  5. 深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird

    深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...

  6. 强化学习_Deep Q Learning(DQN)_代码解析

    Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...

  7. 论文翻译:2022_PACDNN: A phase-aware composite deep neural network for speech enhancement

    论文地址:PACDNN:一种用于语音增强的相位感知复合深度神经网络 引用格式:Hasannezhad M,Yu H,Zhu W P,et al. PACDNN: A phase-aware compo ...

  8. [原][Docker]特性与原理解析

    Docker特性与原理解析 文章假设你已经熟悉了Docker的基本命令和基本知识 首先看看Docker提供了哪些特性: 交互式Shell:Docker可以分配一个虚拟终端并关联到任何容器的标准输入上, ...

  9. 【算法】(查找你附近的人) GeoHash核心原理解析及代码实现

    本文地址 原文地址 分享提纲: 0. 引子 1. 感性认识GeoHash 2. GeoHash算法的步骤 3. GeoHash Base32编码长度与精度 4. GeoHash算法 5. 使用注意点( ...

随机推荐

  1. python3.5.3rc1学习九:正则表达式

    # 正则表达式 ''''' 正则表达式是有一些特殊字符组成,能够帮你找到一些符合一定规则的字符串 先来了解几个符号所代表的意思 \d 匹配所有的数字 \D 匹配所有,但是数字除外 \s 空格 \S 匹 ...

  2. day70_10_16drf组件响应模块,异常模块和序列化模块。

    一.解析模块 为什么要配置解析模块? 1)drf给我们通过了多种解析数据包方式的解析类. 2)我们可以通过配置来控制前台提交的哪些格式的数据后台在解析,哪些数据不解析. 3)全局配置就是针对每一个视图 ...

  3. Rest微服务案例(二)

    1. 创建父工程 Maven Project 新建父工程microservicecloud,packaging是pom模式,pom.xml内容如下: <!-- SpringBoot父依赖 --& ...

  4. Linux下MongoDB安装和配置(二)

    1. 下载MongoDB 下载地址:https://www.mongodb.com/download-center/community 这里选择的是:mongodb-linux-x86_64-4.0. ...

  5. luoguP3181 [HAOI2016]找相同字符

    题意 考虑将\(s1\)和\(s2\)接在一起求出相同子串个数,再求出\(s1\)自己匹配的相同子串个数和\(s2\)自己匹配的相同子串个数减去即可. 如何求相同子串个数: 我们知道子串的集合即所有后 ...

  6. 编程中的policy

    policy,译为政策,一般是预设的一种限制条件,举个例子   var policyText = { "expiration": "2019-01-01T12:00:00 ...

  7. [PHP] 阿里云 Composer 全量镜像

    阿里云 Composer 全量镜像 镜像地址:https://mirrors.aliyun.com/composer/

  8. 8.Go-Reader,Writer和ioutil

    8.1.Reader (1)输入流 流是应用程序和外部资源进行数据交互的纽带 流分为输入流和输出流,输入和输出都是相对于程序,把外部数据传入程序中叫做输入流,反之叫做输出流 在Go语言标准库中io包下 ...

  9. spring boot 开启https

    1.生成证书 keytool -genkey -alias tomcat -keyalg RSA -keystore E:/https.keystore 将生成好的证书放在项目根目录即可 2 修改配置 ...

  10. JS解决所有浏览器连续输入英文字母不换行问题,包括火狐(转)

    问题描述: <p style="font-size:12px;line-height:30px;">测试数据测试数据</p> p标签内如果输入一长段英文字符 ...