深度强化学习（DRL）专栏开篇

2015年，DeepMind团队在Nature杂志上发表了一篇文章名为“Human-level control through deep reinforcement learning”的论文，在这篇论文中，他们提出了DQN算法的改进版本，他们将改进的算法应用到49种不同的Atari 2600游戏中，并且其中的一半实现了超过人类玩家的性能。现在,深度强化学习已经成为了人工智能（Artificial Intelligence，简称AI）领域最前沿的研究方向，在各个应用领域也是备受推崇，如同David Silver认为的那样，未来的人工智能一定是深度学习（Deep Learning）和强化学习（Reinforcement Learning）的结合。

基于此磐小仙会给大家带来关于深度强化学习的一个专栏。这个专栏主要针对想要学习深度强化学习相关领域研究人员与相关从业者。通过专栏的学习，快速带你弄懂深度强化学习原理，与上手深度强化学习实战！

1. 专栏介绍

除了Facebook之外，Twitter、GMU和Salesforce等机构

近年来，强化学习的应用和研究越来越受到大家的关注，强化学习和深度学习一样，都是机器学习研究的重要分支，纵观强化学习的发展，它有着自己的一套理论和方法，尤其将深度学习和强化学习结合之后，其内容则被更加丰富了。虽然目前强化学习已经逐渐应用于人工智能、任务调度以及工业控制等领域，并展现出了其潜在的巨大应用价值，但是由于现实环境的复杂性，导致仍然有很多问题需要解决。

本专栏是实战类的，所以不便花大量的篇幅去介绍强化学习的理论知识，在本专栏的前两节内容里，我们会简单的介绍一下强化学习的基础知识；在第三节和第四节内容里，我们会学习一些最基础的强化学习算法，帮助读者快速入门；第五节内容是三个强化学习算法的项目实战，通过几个小的项目帮助读者加深对算法的理解；第六节内容里会结合实战项目介绍几个常见的深度强化学习算法，实现这些深度强化学习算法是以前面所有内容为基础的；另外，如果读者有兴趣深入研究强化学习和深度强化学习的知识，推荐读者去学习本专栏小结里给出的推荐学习资料。

2. 专栏目录

1. 引言

专栏知识结构
从AlphaGo看深度强化学习

2. 强化学习基础知识

强化学习问题
马尔科夫决策过程
最优价值函数和贝尔曼方程

3. 有模型的强化学习方法

价值迭代
策略迭代

4. 无模型的强化学习方法

蒙特卡洛方法
时序差分学习
值函数近似
策略搜索

5. 实战强化学习算法

Q-learning 算法
Monte Carlo Policy Gradient 算法
Actor Critic 算法

6. 深度强化学习算法

Deep Q-Networks(DQN)
Deep Deterministic Policy Gradient(DDPG)

7. 专栏小结

3. 更新计划

更新频率：一周一篇

开始时间：下周开始

4. 学习交流

为了方便大家更好地与作者进行沟通交流，为此磐小仙针对这个专栏成立了QQ和微信读者交流群，同时邀请了专栏的作者小猴锅坐镇交流群，大家想近距离与作者沟通，都可以来加入。

加入方式：扫描下方微信群二维码，或者QQ群二维码，即可加入交流群。

扫描上方二维码，加入微信交流群

扫描上方二维码，加入QQ交流群

深度强化学习（DRL）专栏开篇的更多相关文章

深度学习-深度强化学习(DRL)-Policy Gradient与PPO笔记
Policy Gradient 初始学习李宏毅讲的强化学习,听台湾的口音真是费了九牛二虎之力,后来看到有热心博客整理的很细致,于是转载来看,当作笔记留待复习用,原文链接在文末.看完笔记再去听一听李宏毅 ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...
一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
深度强化学习——连续动作控制DDPG、NAF
一.存在的问题 DQN是一个面向离散控制的算法,即输出的动作是离散的.对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制. 然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节 ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
5G网络的深度强化学习：联合波束成形，功率控制和干扰协调
摘要:第五代无线通信(5G)支持大幅增加流量和数据速率,并提高语音呼叫的可靠性.在5G无线网络中共同优化波束成形,功率控制和干扰协调以增强最终用户的通信性能是一项重大挑战.在本文中,我们制定波束形成, ...
深度强化学习中稀疏奖励问题Sparse Reward
Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...
【资料总结】| Deep Reinforcement Learning 深度强化学习
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...
深度学习课程笔记（十四）深度强化学习 --- Proximal Policy Optimization (PPO)
深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO) 2018-07-17 16:54:51 Reference: https://b ...

随机推荐

达拉草201771010105《面向对象程序设计（java）》第十六周学习总结
达拉草201771010105<面向对象程序设计(java)>第十六周学习总结第一部分:理论知识 1.程序与进程的概念: (1)程序是一段静态的代码,它是应用程序执行的蓝本. (2)进 ...
关于Markdown下无法使用表格的解决方案
关于Markdown下无法使用表格的解决方案写表格,出现如下场景解决方法.点击左下角M的表示,切换到extra模式打开了新世界.如果不能点击,估计是你没有激活pro的权限,百度下就可以了. 或者 ...
Vue请求第三方接口跨域最终解决办法！2020最终版！
废话少说,再百度的近三个小时尝试了近10种方法无解后,终于皇天不负有心人! 这个vue axios 跨域问题被我解决了! 需求:请求客户端ip地址获取客户ip,再根据ip获取用户位置工具:Vue,a ...
04 namenode和datanode
namenode元数据管理 1.什么是元数据? hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置<datanode>) 2.元数据由谁负责管理? namenod ...
nes 红白机模拟器第2篇 InfoNES
InfoNES 支持 map ,声音,代码比较少,方便移值. 在上个 LiteNES 的基础上,其实不到半小时就移值好了这个,但问题是,一直是黑屏.InfoNES_LoadFrame () Wo ...
TCP粘包很难么，为何我屡屡受挫？？
无论走到哪里,都应该记住,过去都是假的,回忆是一条没有尽头的路,一切以往的春天都不复存在,就连那最坚韧而又狂乱的爱情归根结底也不过是一种转瞬即逝的现实. --马尔克斯本文已经收录至我的GitHub, ...
纯 css column 布局实现瀑布流效果
原理 CSS property: columns.CSS属性 columns 用来设置元素的列宽和列数. 兼容性 chrome 50+ IE 10+ android browser 2.1+ with ...
async,await怎么用
async声明一个函数是异步的,await用于等待异步完成,并且await只能在async中使用. 使用async,await并行处理请求,速度减半: 将多个promise直接发起请求,先执行asyn ...
Elasticsearch批量插入时，存在就不插入
当我们使用 Elasticsearch-py 批量插入数据到 ES 的时候,我们常常使用它的 helpers模块里面的bulk函数.其使用方法如下: from elasticsearch import ...
从源码看 PHP 7 数组的实现
本文所用源码为 PHP 7.4.4 的版本. PHP 7 数组概述 PHP 中的数组实际上是一个有序映射.映射是一种把 values 关联到 keys 的类型.此类型在很多方面做了优化,因此可以把它当 ...

深度强化学习（DRL）专栏开篇

深度强化学习（DRL）专栏开篇的更多相关文章

随机推荐

热门专题