LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS
任务是地图里面导航,让agent从起始点到达指定位置。
用了supervised learning + reinforcement learning + lstm
用supervised learning当做辅助训练,加速rl训练,用lstm当做memory。实验表明depth construction比较有用。论文中的方法在固定地图和随机地图中都能用。
LEARNING TO NAVIGATE IN COMPLEX ENVIRONMENTS的更多相关文章
- Biologically Inspired Reinforcement Learning: Reward-Based Decomposition for Multi-goal Environments
		
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 我们提出了一种基于情绪的分层强化学习(HRL)算法,用于具有多种奖励来源的环境.该系统的架构受到大脑神经生物学的启发,特 ...
 - (转)Paper list of Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning
		
Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning 2018-08-03 19:16:56 本文转自:http ...
 - 18 Issues in Current Deep Reinforcement Learning from ZhiHu
		
深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两 ...
 - (zhuan) Where can I start with Deep Learning?
		
Where can I start with Deep Learning? By Rotek Song, Deep Reinforcement Learning/Robotics/Computer V ...
 - (zhuan) 一些RL的文献(及笔记)
		
一些RL的文献(及笔记) copy from: https://zhuanlan.zhihu.com/p/25770890 Introductions Introduction to reinfor ...
 - (zhuan) 126 篇殿堂级深度学习论文分类整理 从入门到应用
		
126 篇殿堂级深度学习论文分类整理 从入门到应用 | 干货 雷锋网 作者: 三川 2017-03-02 18:40:00 查看源网址 阅读数:66 如果你有非常大的决心从事深度学习,又不想在这一行打 ...
 - zz深度学习论文合集大全
		
Pull requestsIssues Marketplace Explore Learn Git and GitHub without any code! Using ...
 - What are some good books/papers for learning deep learning?
		
What's the most effective way to get started with deep learning? 29 Answers Yoshua Bengio, ...
 - [DQN] What is Deep Reinforcement Learning
		
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
 
随机推荐
- 深入理解Linux内核-块设备驱动程序
			
扇区: 1.硬盘控制器将磁盘看成一大组扇区2.扇区就是一组相邻字节3.扇区按照惯例大小设置位512字节4.存放在块设备中的数据是通过它们在磁盘上的位置来标识,即首个扇区的下标和扇区的数目.5.扇区是硬 ...
 - android 覆盖安装问题
			
1.android中覆盖安装不会导致data/data/package下的数据被删除 2.数据库会有数据库的一套升级机制 3.sharepreference 不会被覆盖,如果在app中有使用Key记录 ...
 - javascript  关于局部变量和全局变量
			
js中函数运行过程不仅仅是单纯的局部变量覆盖全局变量.和函数里面的声明情况有关. 比方: <script> var a =1; function test(){ alert(a); //a ...
 - RenderTexture动态创建纹理
			
CCRenderTexture,它允许你来动态创建纹理,并且可以在游戏中重用这些纹理. 使用 CCRenderTexture非常简单 – 你只需要做以下5步就行了: 创建一个新的CCRenderTex ...
 - python-计算数据的相关性
			
先解释下什么叫数据的相关性: 计算两个数组的平均值,如果两个数组中的两个值都大于平均值或者都小于平均值,则得到true. 如果一个大于平均值一个小于平均值,则得到false.最后计算true和fals ...
 - 解决windows10 里vs2015 附件进程调试提示“此任务要求应用程序有提升的权限”
			
刚用windows10 ,感觉有些地方别扭.就在是vs2015开发程序的时候,就遇到了个问题. 首先 我是使用adminitrator账号登陆的. 双击vs解决方案,打开iis,然后结合vs2015里 ...
 - 【数据库】悲观锁与乐观锁与MySQL的MVCC实现简述
			
悲观锁 悲观锁,就是一种悲观心态的锁,每次访问数据时都会锁定数据: 乐观锁 乐观锁,就是一种乐观心态的锁,每次访问数据时并不锁定数据,期待数据并没作修改,如果数据没被修改则作具体的业务 应用程序上使用 ...
 - 【Linux技术】BusyBox详解
			
BusyBox 是很多标准 Linux® 工具的一个单个可执行实现.BusyBox 包含了一些简单的工具,例如 cat 和 echo,还包含了一些更大.更复杂的工具,例如 grep.find.moun ...
 - Eclipse报This version of the rendering library is more recent than your version of ADT ...
			
http://blog.csdn.net/zhao_3546/article/details/12968295 最近使用 Help --> Check for Updates 升级了Eclips ...
 - s3c2440内存控制器与SDRAM基本测试
			
前面我们实验的LED和串口程序,是cpu发送地址给特定的寄存器,在寄存器中写相应的位,达到控制要求. 第一类是GPIO门电路如LED,第二类是协议类如串口,这些都不是cpu直接给地址信息,而是通过寄存 ...