论文笔记之：Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning with Double Q-learning

Google DeepMind

　　Abstract

　　主流的 Q-learning 算法过高的估计在特定条件下的动作值。实际上，之前是不知道是否这样的过高估计是 common的，是否对性能有害，以及是否能从主体上进行组织。本文就回答了上述的问题，特别的，本文指出最近的 DQN 算法，的确存在在玩 Atari 2600 时会 suffer from substantial overestimations。本文提出了 double Q-learning algorithm 可以很好的降低观测到的 overestimation 问题，而且在几个游戏上取得了更好的效果。

　　Introduction

　　强化学习的目标是对序列决策问题能够学习到一个好的策略，通过优化一个累计未来奖励信号。Q-learning 是最著名的 RL 学习算法之一，但是由于其在预测动作值的时候包含一个最大化的步骤，所以导致会出现过高的预测值，使得学习到不实际的高动作值。

　　在之前的工作中，将 overestimation 的问题归咎于不够灵活的函数估计以及 noise。本文统一了这些观点，并且表明当动作值预测的不准确的时候，就会出现 overestimation，而不管估计误差的来源。当然，在学习的过程中，出现不准确的值估计也是正常的，这也说明 overestimation 可能比之前所看的情况更加普遍。

　　如果overestimation 的确出现，那么这个开放的问题的确会影响实际的性能。过于优化的值估计在一个问题中是不必要的，如果所有的值都比相对动作参考要均匀的高被保存了，那么我们就不会相信得到的结果策略会更差了。此外，有时候 optimistic 是一件好事情：optimistic in the face of uncertainty is a well-known exploration technique. 然而，如果当预测并且均匀，不集中在 state上，那么他们可能对结果的策略产生坏的影响。Thrun 等人给出了特定的例子，即：导致次优的策略。

　　为了测试在实际上是否会出现 overestimation，我们探讨了最近 DQN 算法的性能。关于 DQN 可以参考相关文章，此处不赘述了。可能比较奇怪的是，这种 DQN设置仍然存在过高的估计动作的 value 这种情况。

　　作者表明，在 Double Q-learning算法背后的idea，可以很好的和任意的函数估计相结合，包括神经网络，我们利用此构建了新的算法，称: Double DQN。本文算法不但可以产生更加精确的 value estimation，而且在几个游戏上得到了更高的分数。这样表明，在 DQN上的确存在 overestimation 的问题，并且最好将其降低或者说消除。

　　Background

　　为了解决序列决策问题，我们学习对每一个动作的最优值的估计，定义为：当采取该动作，并且以后也采用最优的策略时，期望得到的将来奖励的总和。在给定一个策略 $\pi$ 之后，在状态 s下的一个动作 a 的真实值为：

　　$Q_{\pi}(s, a) = E[R_1 + \gamma R_2 + ... | S_0 =s, A_0 = a, \pi]$，

　　最优的值就是 $Q_*(s, a) = max_{\pi} Q_{\pi}(s, a)$。一个优化的策略就是从每一个状态下选择最高值动作。

　　预测最优动作值可以利用 Q-learning算法。大部分有意思的问题都无法在所有状态下都计算出其动作值。相反，我们学习一个参数化的动作函数 Q(s, a; \theta_t)。在状态St下，采取了动作 $A_t$之后标准的 Q-learning 更新，然后观测到奖励 $R_{t+1}$以及得到转换后的状态 $S_{t+1}$：

　其中，目标 $Y_t^Q$ 的定义为：　　

　　这个更新非常类似于随机梯度下降，朝向 target value $Y^Q_t$ 更新当前值 Q（S_t, A_t; \theta_t）。

　　Deep Q-Networks.

　　一个DQN是一个多层的神经网络，给定一个状态 s，输出一个动作值的向量 $Q(s, *; \theta)$，其中，$\theta$ 是网络的参数。对于一个 n维的状态空间，动作空间是 m 个动作，神经网络是一个函数将其从 n维空间映射到 m维。两个重要的点分别是 target network 的使用以及 experience replay的使用。target network，参数为 $\theta^-$，和 online的网络一样，除了其参数是从 online network 经过某些 steps之后拷贝下来的。目标网络是：

　　对于 experience replay，观测到的 transitions 都被存贮起来，并且随机的从其中进行采样，用来更新网络。target network 和 experience replay 都明显的改善了最终的 performance。

　　Double Q-learning

　　在标准的 Q-learning 以及 DQN 上的 max operator，用相同的值来选择和评价一个 action。这使得其更偏向于选择 overestimated values，导致次优的估计值。为了防止此现象，我们可以从评价中将选择独立出来，这就是 Double Q-learning 背后的 idea。

　　在最开始的 Double Q-learning算法中，通过随机的赋予每一个 experience 来更新两个 value functions 中的一个来学习两个value function，如此，就得到两个权重的集合，$\theta$ 以及 $\theta '$。对于每一次更新，其中一个权重集合用来决定贪婪策略，另一个用来决定其 value。做一个明确的对比，我们可以首先排解 selection 和 evaluation，重写公式2，得到：

　　那么， Double Q-learning error可以写为：　　

　　注意到 action 的选择，在 argmax，仍然属于 online weights $\theta_t$。这意味着，像 Q-learning一样，我们仍然可以根据当前值，利用贪婪策略进行 value 的估计。然而，我们利用第二个权重 $\theta _t '$来更加公平的评价该策略。第二个权重的集合，可以通过交换两个权重的角色进行更新。

　 OverOptimism due to estimation errors:

论文笔记之：Deep Reinforcement Learning with Double Q-learning的更多相关文章

论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...
论文笔记：Deep feature learning with relative distance comparison for person re-identification
这篇论文是要解决 person re-identification 的问题.所谓 person re-identification,指的是在不同的场景下识别同一个人(如下图所示).这里的难点是,由于不 ...
论文笔记：Deep Residual Learning
之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记.在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域, ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
论文笔记 — L2-Net: Deep Learning of Discriminative Patch Descriptor in Euclidean Space
论文: 本文主要贡献: 1.提出了一种新的采样策略,使网络在少数的epoch迭代中,接触百万量级的训练样本: 2.基于局部图像块匹配问题,强调度量描述子的相对距离: 3.在中间特征图上加入额外的监督: ...
论文笔记系列-iCaRL： Incremental Classifier and Representation Learning
导言传统的神经网络都是基于固定的数据集进行训练学习的,一旦有新的,不同分布的数据进来,一般而言需要重新训练整个网络,这样费时费力,而且在实际应用场景中也不适用,所以增量学习应运而生. 增量学习主要旨 ...
【论文笔记】A review of applications in federated learning（综述）
A review of applications in federated learning Authors Li Li, Yuxi Fan, Mike Tse, Kuo-Yi Lin Keyword ...
论文笔记之：MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching
MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching CVPR 2015 本来都写到一半了,突然笔记本死机了 ...
论文笔记：Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://openac ...
论文笔记(4)-Deep Boltzmann Machines
Deep Boltzmann Machines是hinton的学生写的,是在RBM基础上新提出的模型,首先看一下RBM与BM的区别很明显可以看出BM是在隐含层各个节点以及输入层各个节点都是相互关联的 ...

随机推荐

带弹出列表的EditText
最近做的一个Andriod里有一个这个要求,一个东西需要输入,但同时可以在列表直接选择.看到这个需求,瞬间想到了QQ的登录界面,那个账号输入的控件正式我所需要的. 这个账号输入框右边有一个按钮,点击可 ...
AJAX笔记
浏览器脚本——AJAX AJAX = 异步的 JavaScript 和 XML(Asynchronous JavaScript and XML). 是一种新的技术,它可以创建更好.更快且交互性更强的 ...
jsCodeWar 多函数嵌套调用
function compose(f, g) { return function() { return f(g.apply(this, arguments)); }; } --- function c ...
Non-constant Fields in Case Labels
Non-constant Fields in Case Labels in android library project http://tools.android.com/tips/non-cons ...
C++中的数组与指针
数组与指针看起来很像 int a[] = {1, 2 ,3}; int *p = a; 如此,我们可以p[0], p[1], p[2] 看起来,与直接使用数组名没什么两样,但是看这段代码 sizeof ...
weblogic服务器的简单使用（一）
一.前言现在的公司开发的项目基于的平台是weblogic8.1.5,虽然版本是旧了点,但是用到的功能还是很多的,如JNDI.t3协议.EJB2.0.线程池.连接池.Ant部署.java远程调试. 发 ...
VS2013失去智能提示如何恢复
一般智能提示包括,输入智能提示,鼠标移到类,方法,接口,变量上面自动提示相关信息,VS2013常常会失去这种提示功能,遇到这种情况可以这样解决: 1.在开发环境中随便打开一个xxx.aspx页面,也就 ...
Python ~~~ 面向对象的利器
class Rectangle(): # 有没有括号都行 . def __init__(self,x,y): self.x=x self.y=y def getPeri(self): def getA ...
JAVA的数组和输入
package com.java1995; import java.util.Scanner; public class Array { public static void main(String[ ...
PHP中的文件下载
文件下载:用<a href="链接"></a>这种是下载,但对于浏览器能解释的文件类型此下载非彼下载.向服务器请求的时候:1.协议和版本2.头信息3.请求的 ...

论文笔记之：Deep Reinforcement Learning with Double Q-learning

论文笔记之：Deep Reinforcement Learning with Double Q-learning的更多相关文章

随机推荐

热门专题