论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs

Deep Recurrent Q-Learning for Partially Observable MDPs

　 摘要：DQN 的两个缺陷，分别是：limited memory 和 rely on being able to perceive the complete game screen at each decision point.

　　为了解决这两个问题，本文尝试用 LSTM 单元替换到后面的 fc layer，这样就产生了 Deep Recurrent Q-Network （DRQN），虽然每一个时间步骤仅仅能看到一张图像，仍然成功的结合了相关信息，在Atari games 和 partically observed equivalents feature flikering game screens，得到了 DQN 相当的效果。另外，当用部分观测进行训练，并且用逐渐增加的完整的观测时，DRQN 的性能和观测成一定的函数关系。相反的，当用全屏进行训练的时候，用部分观测进行评估，但是DRQN 的性能却比 DQN 的效果要差。所以，给定同样长度的历史，recurrency 是一种实际可行的方法来存储 DQN 的输入层的历史。

　引言：开头讲了 DQN 取得的成功，后面开始说他的两个弱点，使得 MDP问题逐渐变成了部分观测的马尔科夫决策过程（partically-observable markov decision process）。

　　像下图所展示的那样，仅仅给定一帧图像，许多游戏就变成了 POMDPs。一个例子就是，我们只能知道这个球的位置，但是无法得知其速度。但是知道球的运动方向是非常重要的，因为这将会决定最优的踏板的位置。

　　我们观测到 DQN 的性能在给定不完全的状态观测时，性能就会下降。我们假设 DQN 可以被改善的能够处理 POMDPs，通过引入 RNN 的 advances 。所以，我们引入了 Deep Recurrent Q-Network (DRQN)，组合了 LSTM 和 Deep Q-network。关键的是，我们表明 DRQN 能够处理部分观测的情况，and that recurrency confers benefits when the quality of observations change during evaluation time .

　　Deep Q-learning 的简介（略）

　　Partical Observability :

　　在真实世界的环境中，很少有 full state of the system 可以提供给 agent 。换句话说，马尔科夫属性在这样的环境中，几乎不成立。部分观测的 MDPs 可以更好的抓住环境的动态，通过显示的认识到：agent 接受到的感知都是潜在系统状态的部分glimpse （only partical glimpses of the underlying system state）。形式上来说，POMDP 可以表达为 6个变量：

　　(S, A, P, R, X, O). 假设这几个变量分别为：状态，动作，转移函数，奖励，X 表示真实的环境，但是agent 只能感知其部分信息 o 。

　　在一般情况下，预测一个 Q-value 可能是不准确的，是因为： $Q(o, a|\theta) != Q(s, a|\theta)$ 。

　　我们的实验表明，添加了 recurrency 到 DQN 当中，允许 Q-network 能够更好的预测潜在的系统状态，缩小上述不等式两者之间的差距。从而更加准确的预测 Q values ，进一步的提升学习到的策略。

　　DRQN Architecture：

　　像图 2 所示的那样，DRQN 的结构是将 DQN 上的第一个 fc layer 替换成了 LSTM 单元。

　　对于输入来说，Recurrent network 输入一张 84*84 的图像。

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs的更多相关文章

论文笔记(2)：A fast learning algorithm for deep belief nets.
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...
论文笔记——A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding
论文<A Deep Neural Network Compression Pipeline: Pruning, Quantization, Huffman Encoding> Prunin ...
论文笔记之： Recurrent Models of Visual Attention
Recurrent Models of Visual Attention Google DeepMind 模拟人类看东西的方式,我们并非将目光放在整张图像上,尽管有时候会从总体上对目标进行把握,但是也 ...
论文笔记：Deep feature learning with relative distance comparison for person re-identification
这篇论文是要解决 person re-identification 的问题.所谓 person re-identification,指的是在不同的场景下识别同一个人(如下图所示).这里的难点是,由于不 ...
论文笔记：Deep Residual Learning
之前提到,深度神经网络在训练中容易遇到梯度消失/爆炸的问题,这个问题产生的根源详见之前的读书笔记.在 Batch Normalization 中,我们将输入数据由激活函数的收敛区调整到梯度较大的区域, ...
论文笔记：Deep Attentive Tracking via Reciprocative Learning
Deep Attentive Tracking via Reciprocative Learning NIPS18_tracking Type:Tracking-By-Detection 本篇论文地主 ...
论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS ICLR 2 ...
论文笔记 — L2-Net: Deep Learning of Discriminative Patch Descriptor in Euclidean Space
论文: 本文主要贡献: 1.提出了一种新的采样策略,使网络在少数的epoch迭代中,接触百万量级的训练样本: 2.基于局部图像块匹配问题,强调度量描述子的相对距离: 3.在中间特征图上加入额外的监督: ...
论文笔记 - An Explanation of In-context Learning as Implicit Bayesian Inference
这位更是重量级.这篇论文对于概率论学的一塌糊涂的我简直是灾难. 由于 prompt 的分布与预训练的分布不匹配(预训练的语料是自然语言,而 prompt 是由人为挑选的几个样本拼接而成,是不自然的自然 ...

随机推荐

linux重启命令学习
Linux关闭和重启系统一般使用相同的命令可以实现. 在Linux系统下常用在关机/重启命令有shutdown.halt.reboot和init,但每个命令的内部工作过程是不同的. 1．shutdow ...
程序设计入门—Java语言第五周编程题 2井字棋（5分）
2 井字棋(5分) 题目内容: 嗯,就是视频里说的那个井字棋.视频里说了它的基本思路,现在,需要你把它全部实现出来啦. 你的程序先要读入一个整数n,范围是[3,100],这表示井字棋棋盘的边长.比如n ...
IntelliJ IDEA的快捷键
本人整理了一部分,如果有无效的,欢迎指出.
CSS 3 选择器
css3叫做样式表对页面的布局,字体,颜色,背景和其他效果做更精确的布置支持的浏览器有 chrome safari firfox opera 甚至360都开始支持360用的是别的内核 IE10 ...
php注意事项2
1.不要使用相对路径常常会看到: require_once('../../lib/some_class.php'); 该方法有很多缺点: 它首先查找指定的php包含路径, 然后查找当前目录. 因此会 ...
spring-mvc.xml中的配置
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sp ...
点击a标签，跳转到iframe中，并在iframe中显示指定的页面
点击a标签,跳转到iframe中,并在iframe中显示指定的页面 1.用a标签的target属性 <iframe id="myFrameId" name="myF ...
E:Sudoku
总时间限制: 2000ms 内存限制: 65536kB描述Sudoku is a very simple task. A square table with 9 rows and 9 columns ...
git add 命令添加所有改动内容
git add xx命令可以将xx文件添加到暂存区,如果有很多改动可以通过 git add -A .来一次添加所有改变的文件. 注意 -A 选项后面还有一个句点. git add -A表示添加所有内容 ...
关于DButils的简单介绍
android中的orm框架,一行代码就可以进行增删改查:支持事务,默认关闭:可通过注解自定义表名,列名,外键,唯一性约束,NOT NULL约束,CHECK约束等(需要混淆的时候请注解表名和列名)等等 ...

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs

论文笔记之：Deep Recurrent Q-Learning for Partially Observable MDPs的更多相关文章

随机推荐

热门专题