[强化学习]Part1:强化学习初印象
引入
智能

人工智能

强化学习初印象

强化学习的相关资料
- 经典书籍推荐:《Reinforcement Learning:An Introduction(强化学习导论)》(强化学习教父Richard Sutton 的经典教材)
- 经典理论课程推荐: 2015 David Silver经典强化学习公开课、 UC Berkeley CS285 、斯坦福 CS234
- 伯克利2018 Deep RL课程:http://rail.eecs.berkeley.edu/deeprlcourse/
- 强化学习经典论文
- DQN. "Playing atari with deep reinforcement learning." https://arxiv.org/pdf/1312.5602.pdf
- A3C. "Asynchronous methods for deep reinforcement learning." http://www.jmlr.org/proceedings/papers/v48/mniha16.pdf
- DDPG. "Continuous control with deep reinforcement learning." https://arxiv.org/pdf/1509.02971
- PPO. "Proximal policy optimization algorithms." https://arxiv.org/pdf/1707.06347
- 强化学习前沿研究方向:Model-base RL、 Hierarchical RL、 Multi Agent RL、 Meta Learning
- 经典环境库:GYM https://gym.openai.com/
- 框架库:PARL https://github.com/PaddlePaddle/PARL
说明
本系列文章,主要来自于百度飞桨深度学习学院的强化学习训练营课程以及个人整理的学习笔记。
课程大纲:

另外,该课程其它学员的笔记参考:
- https://zhuanlan.zhihu.com/p/149322765(作者:Tiny Tony,来自伯克利)
- https://blog.csdn.net/weixin_45623093/article/details/106822739(作者:三岁学编程)
- https://www.bilibili.com/video/BV1vZ4y1H7Sk?from=search&seid=549012863325744772(作者:nikankind)
- https://blog.csdn.net/qq_42067550/article/details/106844303(作者:AItrust)
- https://blog.csdn.net/qq_44635194/article/details/106812096(作者:烟笼寒水月笼沙)
- https://blog.csdn.net/zbp_12138/article/details/106800911(作者:Mr.郑先生_)
- https://yueqingsheng.github.io/post/qiang-hua-xue-xi-day-2-sarsa-q-learning/(作者:Goose)
( 说明:未经允许,禁止转载,望理解,谢谢)
[强化学习]Part1:强化学习初印象的更多相关文章
- AI小白必读:深度学习、迁移学习、强化学习别再傻傻分不清
摘要:诸多关于人工智能的流行词汇萦绕在我们耳边,比如深度学习 (Deep Learning).强化学习 (Reinforcement Learning).迁移学习 (Transfer Learning ...
- OpenCL学习笔记(一):摩尔定律,异构计算与OpenCL初印象
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 关于摩尔定律: 摩尔定律19 ...
- oracle 12c 学习系列(1)–12c初体验
详见原文博客链接地址: oracle 12c 学习系列(1)–12c初体验
- Vue.js之初印象
一.背景 MVVM模式,很多人在说在用,好吧,我落后了,我目前的项目木有用到MVVM模式的框架,vuejs,reactjs,angularjs,nonono,自己去捣鼓过ng,项目木有用到.实在不敢称 ...
- 初印象至Vue路由
初印象系列为快速了解一门技术的内容,后续会推出本人应用这门技术时发现的一些认识. Vue路由和传统路由的区别: Vue路由主要是用来实现单页面应用内各个组件之间的切换,同样支持传递参数等功能.而传统路 ...
- 基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层,对每张图片得到一个 4096 维的特征向量,然后我们直接用这个特征向量替代原来的图片,再加若干层全连接的神经网络,对花朵数据集进行训练(属于模型迁移)
基于深度学习和迁移学习的识花实践(转) 深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 Tens ...
- 对比学习:《深度学习之Pytorch》《PyTorch深度学习实战》+代码
PyTorch是一个基于Python的深度学习平台,该平台简单易用上手快,从计算机视觉.自然语言处理再到强化学习,PyTorch的功能强大,支持PyTorch的工具包有用于自然语言处理的Allen N ...
- 人工智能新手入门学习路线和学习资源合集(含AI综述/python/机器学习/深度学习/tensorflow)
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 分享个人对于人工智能领域的算法综述:如果你想开始学习算法,不妨先了解人工 ...
- HTTP协议学习之Request学习
在开始前,我们首先对HTTP协议做个简单的了解 HTTP协议(Hyper Text Transfer Protocol) 超文本传输协议 名词非常的高大上,如果学过计算机网络这门课(再如果还有一点印象 ...
随机推荐
- jchdl-GSL-实例 - 使用Intellij IDEA创建Mux
https://mp.weixin.qq.com/s/yP9xKeg0iHJChuMPzxdJtA https://github.com/wjcdx/jchdl/blob/master/src/org ...
- jchdl - RTL Event
https://mp.weixin.qq.com/s/P9uoJwIYdM-mbiR9WCtJCg hardware modeling基于事件驱动模型,RTL中定义了多种事件. jchdl 参考了 ...
- Chisel3 - 模块
https://mp.weixin.qq.com/s/2vjM-gcauvHnn6KJzlOm4g Chisel的模块和Verilog的模块很相似,都用来定义模块结构(hierarchical s ...
- 【HIVE】数据分析HQL的编写方法/思路
SQL编写一般思路: 1)复杂的查询,先划分为小任务,以降低难度.分别实现各个小任务后,再进行汇总: 2)涉及多表时,先进行联表查询: 3)简单分组,一般只需要group by即可: 4)组内TopN ...
- JavaSE(三) 变量与运算符
个人博客网:https://wushaopei.github.io/ (你想要这里多有) 2 变量的使用 2.1按数据类型分类 整型 : byte(1字节 = 8bit) short(2字节 ...
- Java并发编程 (六) 线程安全策略
个人博客网:https://wushaopei.github.io/ (你想要这里多有) 一.不可变对象-1 有一种安全的发布对象,即不可变对象. 1.不可变对象需要满足的条件 ① 对象创建以后 ...
- WEB前端程序员需要的网站整理
前端学习资源实在是又多又广,在这样的一个知识的海洋里,我们像一块海绵一样吸收,想要快速提高效率,平时的总结不可缺少,以下总结了一些,排版自我感觉良好,推送出来. 一.插件类网站 jQuery插件库:h ...
- Java实现 蓝桥杯VIP 算法训练 瓷砖铺放
[题目描述]: 有一长度为N(1< =N< =10)的地板,给定两种不同瓷砖:一种长度为1,另一种长度为2,数目不限.要将这个长度为N的地板铺满,一共有多少种不同的铺法? 例如,长度为4的 ...
- Java实现 蓝桥杯VIP 算法训练 会议中心
算法训练 会议中心 时间限制:2.0s 内存限制:512.0MB 会议中心 Siruseri政府建造了一座新的会议中心.许多公司对租借会议中心的会堂很感兴趣,他们希望能够在里面举行会议. 对于一个客户 ...
- Java实现 LeetCode 103 二叉树的锯齿形层次遍历
103. 二叉树的锯齿形层次遍历 给定一个二叉树,返回其节点值的锯齿形层次遍历.(即先从左往右,再从右往左进行下一层遍历,以此类推,层与层之间交替进行). 例如: 给定二叉树 [3,9,20,null ...