导读

看任何一个领域的文章,一定要看第一手资料。学习他们的思考方式,论述逻辑,得出一点自己的感悟。因此,通过阅读paper,来提升自己对于这个领域的感性和理性认识。如少年时,玩war3电子竞技一般。练习一个种族,找寻突破点。

文章原文:https://ai.tencent.com/ailab/zh/paper/detial?id=329

看到这篇文章的title是:Curriculum-guided Hindsight Experience Replay。可能一下会犯晕,但是

要想到一点,万事万物是"简易"的,是一步步由简单到复杂的。"天下难事必作于易"。

  • Curriculum-guided

    是某些前辈提出来了。paper中也有如下的引用:

    curriculum learning [Bengio et al., 2009] and its applications [Khanet al., 2011, Basu and Christensen, 2013, Spitkovsky et al., 2009]他是借鉴人类的思想方式。如果有一个精心设计的课程可以

    显著提高强化学习的质量和效率。

  • Hindsight Experience Replay

    事后经验复盘(个人翻译,只为个人理解,不权威)。就像人类一样,从失败的经历中得到教训和经验,从而去修正自己

    的行为。这个概念也是有前辈已经提出来的,引用HER [Andrychowicz et al., 2017]

作者,是把这两种思路,进行了融合。然后加入了一些参数因子goal-proximitydiversity-based curiosity

,这个可以说是作者思考的核心要点。采取像人类一般的思考策略(human-like learning strategy),对一件事物,你前期对于它的兴趣越大,那么你接近目标的可能性概率也就越高。通过这些思考,作者提出了Curriculum-guided HER (CHER)

以上是个人分析,但我觉得事物的发展,是通过思考而来的。如果我们也可以站在"巨人的肩膀之上",把A和B的思路合为一体,再加一点点C因素。构成自己的D理论。我们也可能写出顶会的paper。

目录

继续分析,paper的目录结构:

  • Abstract
  • Introduction
  • Related Work
  • Methodology
  • Experiments
  • Conclusion

    Acknowledgements

    References

可以看到,一篇paper的目录结构还是很简单易懂的。介绍一些前人的工作和算法,他们有哪些事情是可以值得借鉴的;他们有哪些是不足的;我(这里不是指我,而是作者)可以做哪些工作取弥补他们。然后我提出来的算法,在某个领域的应用比前辈们有哪些优势。通过基准测试的数据证明我的有效性。最后,得出一定的结论。

全文可以看出,作者任何一句话都不是顺便说的,没有那么多主观论断,都是有客观的引用。循序渐进,最终提出自己的思路和想法。

因此,我(这里指我)可以学到的是什么?他的逻辑思维,思考逻辑和运用的一些方法。如果我要去写的话,也得找出这些前辈们的算法中的优势和不足在哪里。

正文

我不是翻译的,而是,喜欢个人分析。转为自己的思路。如果想看原文请点击最上方。

Abstract【摘要】

提出现象:在off-policy的深入强化学习框架之下,很难在稀疏奖励(sparse matrix)之下获得有效和成功的经验。

那怎么办呢?

前人提出来了HER ,能解决一部分。但是无法把所有的失败案例做有效的复盘和统一整理。

这篇paper,提出的解决思路:

1)利用好奇心多样性驱动,来自适应性的选择这些失败的经验进行复盘。

2)选择想人类一般的思考策略,在前期阶段强制投入过多的好奇心,这样后期阶段达到goal-proximity的可能性就越大。

而这个算法作者取名为:CHER,并在具有挑战性的机器人环境中证明它这种算法有一定的提升性。

什么是off-policy?on-policy:相当于,古时候的皇帝,想了解百姓生活,要眼见为实。所以微服私访,自己去调查民情。而off-policy:就是皇帝自己待在宫中,派百官去了解百姓的民情,然后通过百官的论述做决策。这里就有百官是否可靠的问题了,和RL算法中提到的agent有异曲同工之妙。

Introduction【介绍】

  1. Deep reinforcement Learning(RL)是一个有效的框架,可以解决很多复杂的控制问题。在模拟(simulated)领域中,它可以驱动代理(这里可以比喻为皇帝的百官)去执行各种各样的有挑战性的任务。引用来自:[Mnih et al., 2015, Lillicrap et al., 2015, Duan et al., 2016].(其中括弧中的话,是我说的。主要是为了让人们理解)
  2. 为了训练可靠的代理(判断百官是否忠诚),就要设立奖惩制度(design a reward)。引用来自: [Ng et al., 1999].通过这些代理密集型的反馈(百官们积极反映社会问题),有效指导了算法的决策(皇帝做决策的时候,更符合民情)。因此,在特定环境下特定场景内效果还是不错滴。

------------------------先写到这里,九层之台始于垒土,慢慢来,后面更新----------------------------------

【深度强化学习】Curriculum-guided Hindsight Experience Replay读后感的更多相关文章

  1. (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

    本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

  2. 一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm)

    一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25  16:29:19   对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...

  3. 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

    转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...

  4. 深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird

    深度强化学习(DQN-Deep Q Network)之应用-Flappy Bird 本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-fu ...

  5. 深度强化学习中稀疏奖励问题Sparse Reward

    Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 ​ 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...

  6. 【资料总结】| Deep Reinforcement Learning 深度强化学习

    在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...

  7. 深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)

    深度学习课程笔记(十四)深度强化学习 ---  Proximal Policy Optimization (PPO) 2018-07-17 16:54:51  Reference: https://b ...

  8. 深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods)

    深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...

  9. 深度强化学习——连续动作控制DDPG、NAF

    一.存在的问题 DQN是一个面向离散控制的算法,即输出的动作是离散的.对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制. 然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节 ...

随机推荐

  1. 乱世兄弟(豹老头 X 天捣臼)

    论CP之冷冷冷 只为白凡扫剧- 片源: 乱世兄弟 BGM:兄弟 人物角色: 豹老头 - 白凡 天捣臼 大专栏  乱世兄弟(豹老头 X 天捣臼)- 姚鲁 B站:豹老头 X 天捣臼-MV<乱世兄弟& ...

  2. 游LeetCode一月之闲谈

    今年的2月比往常更长,不是因为比往年多了一天,而是被病毒隔离在家的日子显得十分漫长.如果再不给自己找点事情做的话,且不论身体方面的健康状况,精神方面可能也会有些隐忧.做为一名工程师,适时地读上几本平日 ...

  3. C语言链表的基本操作

    */ * Copyright (c) 2016,烟台大学计算机与控制工程学院 * All rights reserved. * 文件名:text.cpp * 作者:常轩 * 微信公众号:Worldhe ...

  4. 项目页面集成ckeditor富文本编辑器

    步骤一.引入ckeditor.js (注:本实例以ThinkPHP3.2框架为载体,不熟悉ThinkPHP的朋友请自行补习,ckeditor文件代码内容也请去ckeditor官网自行下载) 作为程序员 ...

  5. Mybatis-Plus代码生成器使用详解

    首先创建springboot的项目(创建步骤省略) 创建好项目后要配置maven依赖,附上pom.xml: <?xml version="1.0" encoding=&quo ...

  6. 提高 Web开发性能的 10 个方法

    随着网络的高速发展,网络性能的持续提高成为能否在芸芸App中脱颖而出的关键.高度联结的世界意味着用户对网络体验提出了更严苛的要求.假如你的网站不能做到快速响应,又或你的App存在延迟,用户很快就会移情 ...

  7. 前端解决跨域问题的终极武器——Nginx反向代理

    提到代理,分为:正向代理和反向代理. 正向代理:就是你访问不了Google,但是国外有个VPN可以访问Google,你访问VPN后叫它访问Google,然后把数据传给你. 正向代理隐藏了真实的客户端. ...

  8. 开放融合易用@门户移动开发新体验-逐浪CMS v8.0.1全面发布

    北京时间2019年8月30日消息: 领先的web内核研发厂商--上海Zoomla!逐浪CMS团队发布最新CMS版本:Zoomla!逐浪CMS v8.0.1,这是继上个版本v8.0后功能最具完强大与精彩 ...

  9. DEV GridControl控件使用(CheckBox全选、操作按钮、事件处理,获取值)

    1.GridControl控件使用 (1)绑定数据源 //绑定DataTable gridControl1.DataSource = DbHelper.ExecuteDataTable("S ...

  10. Markdown中插入复杂的合并表格方法

    由于Markdown自身的语法限制,不能直接插入有合并单元格的复杂表格. 姓名 学号 专业 张三 2018123456 计算机 赵四 2018222356 自动化 李六 2018666666 信息工程 ...