记reinforcement learning double DQNS

传统的DQN算法会导致overestimate。因为在训练开始时，最大的Q值并不一定是最好的行为。也就是说较差的行为Q值相对较大，较好的行为Q值相对较小。这时我们在更新Q值时用最大期望来计算我们作为标签的Q值期望，会进一步导致上一个状态的Q值虚高。当然因为有explorating, 所以最后还是会收敛到最优解的，但是在环境比较复杂时，学习速度会变得很慢。我们来看看这个问题的本质原因，比如说 Q(S1,a1) 虚高，那就会导致 Q(S2,a21)虚高，从而连锁导致 Q(S3,a32)虚高。也就是说一个Q(S1,a1)的虚高会导致agent更倾向于走整个S 3-2-1的状态。如果我们用两个不同的网络分别来采取行动和更新Q值可以解决这个问题，这两个网络中一个是freeze的，为target网络，另一个是不断更新的DQN，在限定的步数之后会同步整个网络。如果我们一直按照target网络来更新DQN，会有overestimate，因为每次的目标都是根据target网络中期望值最高的行为来更新的。更好的做法是，用DQN来选择行动，也就是说选择一个在DQN中期望值最高的行为（在target中显然这个行为不一定是期望最高的），用target网络计算这个Q值并得出DQN的标签。

为了解状态本身的好坏与行为带来的好坏，将Q值分为状态量V(s)与行为量A(s,a)。其中V(s)应为所有Q(s,a)的均值，这样我们就能得出Q(s,a1) = V(s) + A(s,a1) - ave(A(s,a))...

记reinforcement learning double DQNS的更多相关文章

论文笔记之：Deep Reinforcement Learning with Double Q-learning
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特 ...
(zhuan) Deep Reinforcement Learning Papers
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. Th ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...
Awesome Reinforcement Learning
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We h ...
论文笔记之：Playing Atari with Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...
Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
论文笔记系列-Neural Architecture Search With Reinforcement Learning
摘要神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的.在本篇论文中,作者使用递归网络去省城神经网络的模型描述,并且使用增强学习训练RNN,以使得生成得到的模型在验证集上 ...
18 Issues in Current Deep Reinforcement Learning from ZhiHu
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
[转]Introduction to Learning to Trade with Reinforcement Learning
Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduc ...

随机推荐

3D视图的2D展示
效果图:预览 :预览如何在2d界面显示3d图形? 如果把屏幕的中心作为视点的中心位置,那由远及近的物体应该是逐渐缩小的,而且是逐渐模糊的, 我们首先获取元素相对于中心点的距离,然后抽取这个距离的百分 ...
JMETER-02
JMeter使用篇 1.界面介绍 2.JMeter-测试计划测试计划:一个JMeter脚本只有一个测试计划,且测试计划必须启用状态容易掉的坑:由于JMeter脚本中的每个元器件都可以单独禁用,上级 ...
python 近义词库包 synonyms 的使用
最近接触到nlp的一些东西,需要找出中文词语的近义词,也接触到了一个synonyms 的库, 分词,去停用词,word2vector 等一些列nlp 的操作,还可以输出中文词语的近义词 https ...
小程序input组件获得焦点时placeholder内容有重影
这个问题是小程序input组件的bug,目前的解决办法可以,在input标签上加一个其他标签,显示placeholder内容,获得焦点时消失,失去焦点时候再让其显示 <view class='i ...
Vim 常用简单命令
Vim中有三个模式,1.刚进入Vim画面的是命令模式,2. 在命令模式输入:进入末行模式, 3. 在命令模式输入 a或者i或者o进入编辑模式在末行或者编辑模式中可以通过ESC回到命令模式举例当前目 ...
prefixspan是挖掘频繁子序列，子序列不一定是连续的，当心！！！
序列模式挖掘是从序列数据库中发现频繁子序列作为模式. 子序列与频繁序列了解了序列数据的概念,我们再来看看上面是子序列.子序列和我们数学上的子集的概念很类似,也就是说,如果某个序列A所有的项集在序列B ...
Qt 滚动窗口类
{ QScrollArea *scrollArea = new QScrollArea(this); scrollArea->setFrameStyle(); scrollArea->se ...
Win10优化：这8个操作简单的小方法让你的Win10系统更加流畅
目前,市场上比较流行的主流电脑系统无非就是win7和win10这两个,这两个也是比较稳定的.但是自从微软发布将于2020年停止对win7支持后,很多小伙伴也表示无奈之下得升win10了啊. win10 ...
c++重要知识点
C++重要知识点精华总结 cin的使用: 1>cin>>a;键盘读入数据赋值给a; 1>程序的输入都建有一个缓冲区,即输入缓冲区.一次输入过程是这样的,当一次键盘输入结束时会将 ...
GetLastError 错误返回码
(0)-操作成功完成.(1)-功能错误.(2)- 系统找不到指定的文件.(3)-系统找不到指定的路径.(4)-系统无法打开文件.(5)-拒绝访问.(6)-句柄无效.(7)-存储控制块被损坏.(8)- ...

记reinforcement learning double DQNS

记reinforcement learning double DQNS的更多相关文章

随机推荐

热门专题