【资料总结】| Deep Reinforcement Learning 深度强化学习

　　在机器学习中，我们经常会分类为有监督学习和无监督学习，但是尝尝会忽略一个重要的分支，强化学习。有监督学习和无监督学习非常好去区分，学习的目标，有无标签等都是区分标准。如果说监督学习的目标是预测，那么强化学习就是决策，它通过对周围的环境不断的更新状态，给出奖励或者惩罚的措施，来不断调整并给出新的策略。简单来说，就像小时候你在不该吃零食的时间偷吃了零食，你妈妈知道了会对你做出惩罚，那么下一次就不会犯同样的错误，如果遵守规则，那你妈妈兴许会给你一些奖励，最终的目标都是希望你在该吃饭的时候吃饭，该吃零食的时候吃零食，而不是在不合适的时间吃零食。同样，曾经风靡过一段时间的Flappy bird，很多玩家在短时间内达到了高分，是怎么做到的呢？除了非常厉害的玩家是真的自己手动玩的高分，其实很多高分是通过我们用强化学习的方法来训练一个模型，让小鸟自己学习如何不碰到障碍物一直往前飞，获得最高分。此外，大家熟知的Alpha Go，其实也是强化学习训练的模型，不过是深度强化学习。

　　2013年DeepMind发表了一篇Playing Atari with Deep Reinforcement Learning 文章之后，深度强化学习便慢慢走入人们的视野。后来，在2015年，DeepMind又发表了一篇Human Level Control through Deep Reinforcement Learning，使得深度强化学习得到了广泛的关注，当年涌现了很多学术成果。我们熟知深度强化学习应该在16~17年的时候，尤其是Alpha Go出现后，很多公司和研究人员开始大量关注深度强化学习，并尝试将其应用在各个不同的应用场景。

　　关于深度强化学习，我整理了一些资料，如果感兴趣的可以学习一下（部分链接需要***）：

【论文】

《深度强化学习》英文版(150页)，是上一版（70页）的加强版：https://arxiv.org/abs/1810.06339
经典书籍：Reinforcement Learning: An Introduction (2nd Edition)
论文集，覆盖面比较广，需要一定基础：Reinforcement Learning: State-of-the-Art
两个非常全的论文资料集合：

【博客】

【文章】

南京大学俞杨博士：强化学习前言（强化学习的完整介绍）https://www.leiphone.com/news/201705/uO8nd09EnR77NBRP.html

【课程】

零基础入门：莫烦python：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/
David Silver的增强学习课程（有视频和ppt），2015年的，需要一定基础: http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
最好的增强学习教材，可以结合David Silver的课程一起看：Sutton & Barto Book: Reinforcement Learning: An Introduction
斯坦福CS234:http://web.stanford.edu/class/cs234/index.html
伯克利CS294:http://rll.berkeley.edu/deeprlcourse/
Pieter Abbeel 的AI课程（包含增强学习，使用Pacman实验）：Artificial Intelligence
Pieter Abbeel 的深度增强学习课程：CS 294 Deep Reinforcement Learning, Fall 2015
Nando de Freitas的深度学习课程（有视频有ppt有作业）：Machine Learning
Michael Littman的增强学习课程：https://www.udacity.com/course/reinforcement-learning–ud600
最新机器人专题课程Penn（2016年开课）：Specialization
Deep Learning Summer School：ppts videos

【学习网站】

openAI GYM Reinforcement Learning toolkits: https://gym.openai.com
强化学习示例演示：https://qqiang00.github.io/reinforce/javascript/demo_iteration.html
karpathy的各种强化学习的演示：https://cs.stanford.edu/people/karpathy/reinforcejs/index.html
MIT的强化学习在线学习网站：http://web.mst.edu/~gosavia/rl_website.html

【Github】

【会议】

　　欢迎大家收藏和补充~

【资料总结】| Deep Reinforcement Learning 深度强化学习的更多相关文章

temporal credit assignment in reinforcement learning 【强化学习经典论文】
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd 论文: temporal credit assignment i ...
Deep Reinforcement Learning
Reinforcement-Learning-Introduction-Adaptive-Computation http://incompleteideas.net/book/bookdraft20 ...
Learning Roadmap of Deep Reinforcement Learning
1. 知乎上关于DQN入门的系列文章 1.1 DQN 从入门到放弃 DQN 从入门到放弃1 DQN与增强学习 DQN 从入门到放弃2 增强学习与MDP DQN 从入门到放弃3 价值函数与Bellman ...
深度学习国外课程资料(Deep Learning for Self-Driving Cars)+(Deep Reinforcement Learning and Control )
MIT(Deep Learning for Self-Driving Cars) CMU(Deep Reinforcement Learning and Control ) 参考网址: 1 Deep ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
深度强化学习：入门(Deep Reinforcement Learning: Scratching the surface)
RL的方案两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新 ...
《DRN: A Deep Reinforcement Learning Framework for News Recommendation》强化学习推荐系统
摘要新闻推荐系统中,新闻具有很强的动态特征(dynamic nature of news features),目前一些模型已经考虑到了动态特征. 一:他们只处理了当前的奖励(ctr);. 二:有一些 ...
深度学习课程笔记（十八）Deep Reinforcement Learning - Part 1 (17/11/27) Lectured by Yun-Nung Chen @ NTU CSIE
深度学习课程笔记(十八)Deep Reinforcement Learning - Part 1 (17/11/27) Lectured by Yun-Nung Chen @ NTU CSIE 201 ...
深度强化学习资料（视频+PPT+PDF下载）
https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...

随机推荐

Android 应用加固（乐固）操作说明
此处引用腾讯云对加固的优点说明如下: 为什么应用需要加固? 若应用不做任何安全防护,极易被病毒植入.广告替换.支付渠道篡改.钓鱼.信息劫持等,严重侵害开发者的利益. 应用进行安全防护,防止应用分发后, ...
面试题之小炼牛刀zip,lambda,map
# 现有两元祖,(('a'),('b')),(('c'),('d'))# 请使用python中匿名函数生成列表[{'a':'c'},{'b':'d'}]t1=(('a'),('b'))t2=(('c' ...
Python练习：关于递归的经典实例设计
(一)裴波拉契数列利用递归算法获得裴波拉契数列前N个值的结果: #裴波拉契数列,通过递归计算 def fb(n): if n <=0: res = 0 elif n ==1: res = 1 ...
Jenkins配置从节点
配置从节点步骤在Master的站点上创建节点配置信息在Slave访问Jenkins站点,然后下载运行服务Slave端必须安装Jdk 两种运行方式: windows 服务运行jar包成功后的节点 ...
C# 操作Word目录——生成、删除目录
目录,是指书籍.文档正文前所载的目次,将主要内容以一定次第顺序编排,起指导阅读.检索内容的作用.在Word中生成目录前,需要设置文档相应文字或者段落的大纲级别,根据设定的大纲级别可创建文档的交互式大纲 ...
3.JAVA-方法重载,类的封装,构造/析构方法
1.方法重载和C++的函数重载一样,主要是实现多个相同的函数名,但是参数表不同. 参数表不同主要有以下几种 1) 参数个数不同 2) 参数类型不同 3) 参数顺序不同 2.类和对象类class 用 ...
http-server安装及运行
vue项目打包后会生成一个dist目录,我们想要直接运行dist目录...除了复制静态文件到服务器nginx目录下,然后启动nginx来启动项目, 另外一个办法就是安装http-server 直接启动 ...
docker中怎样设置开机启动--随容器的启动而启动服务？
docker可以说给我们的部署带来极大的方便和可逢凶化吉性!(懂的同学自然懂) 在初步了解之后,我们就能简单使用docker了. 刚开始玩docker时,可以基于系统级别的镜像做定制,比如基于 ce ...
xpath无法获取值、返回值为[]或者{}的问题解决
最近用xpath,刚开始有很多问题用测试代码跑的时候经常获取不到值. 第一种情况: page= etree.parse('text.html') #text.html为一个html文件 <cl ...
expect实现自动交互由浅入深
expect实现自动交互由浅入深作为运维人员可以通过Shell可以实现简单的控制流功能,如:循环.判断等.但是对于需要交互的场合则必须通过人工来干预,有时候我们可能会需要实现和交互程序如telnet ...

【资料总结】| Deep Reinforcement Learning 深度强化学习

【资料总结】| Deep Reinforcement Learning 深度强化学习的更多相关文章

随机推荐

热门专题