[强化学习]Part1：强化学习初印象

引入

智能

人工智能

强化学习初印象

强化学习的相关资料

经典书籍推荐：《Reinforcement Learning：An Introduction（强化学习导论）》（强化学习教父Richard Sutton 的经典教材）
经典理论课程推荐： 2015 David Silver经典强化学习公开课、 UC Berkeley CS285 、斯坦福 CS234
- 伯克利2018 Deep RL课程：http://rail.eecs.berkeley.edu/deeprlcourse/
强化学习经典论文
- DQN. "Playing atari with deep reinforcement learning." https://arxiv.org/pdf/1312.5602.pdf
- A3C. "Asynchronous methods for deep reinforcement learning." http://www.jmlr.org/proceedings/papers/v48/mniha16.pdf
- DDPG. "Continuous control with deep reinforcement learning." https://arxiv.org/pdf/1509.02971
- PPO. "Proximal policy optimization algorithms." https://arxiv.org/pdf/1707.06347
强化学习前沿研究方向：Model-base RL、 Hierarchical RL、 Multi Agent RL、 Meta Learning
经典环境库：GYM https://gym.openai.com/
框架库：PARL https://github.com/PaddlePaddle/PARL

说明

本系列文章，主要来自于百度飞桨深度学习学院的强化学习训练营课程以及个人整理的学习笔记。

课程大纲：

另外，该课程其它学员的笔记参考：

https://zhuanlan.zhihu.com/p/149322765（作者：Tiny Tony，来自伯克利）
https://blog.csdn.net/weixin_45623093/article/details/106822739（作者：三岁学编程）
https://www.bilibili.com/video/BV1vZ4y1H7Sk?from=search&seid=549012863325744772（作者：nikankind）
https://blog.csdn.net/qq_42067550/article/details/106844303（作者：AItrust）
https://blog.csdn.net/qq_44635194/article/details/106812096（作者：烟笼寒水月笼沙）
https://blog.csdn.net/zbp_12138/article/details/106800911（作者：Mr.郑先生_）
https://yueqingsheng.github.io/post/qiang-hua-xue-xi-day-2-sarsa-q-learning/（作者：Goose）

（说明：未经允许，禁止转载，望理解，谢谢）

[强化学习]Part1：强化学习初印象的更多相关文章

AI小白必读：深度学习、迁移学习、强化学习别再傻傻分不清
摘要:诸多关于人工智能的流行词汇萦绕在我们耳边,比如深度学习 (Deep Learning).强化学习 (Reinforcement Learning).迁移学习 (Transfer Learning ...
OpenCL学习笔记（一）：摩尔定律，异构计算与OpenCL初印象
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 关于摩尔定律: 摩尔定律19 ...
oracle 12c 学习系列(1)–12c初体验
详见原文博客链接地址: oracle 12c 学习系列(1)–12c初体验
Vue.js之初印象
一.背景 MVVM模式,很多人在说在用,好吧,我落后了,我目前的项目木有用到MVVM模式的框架,vuejs,reactjs,angularjs,nonono,自己去捣鼓过ng,项目木有用到.实在不敢称 ...
初印象至Vue路由
初印象系列为快速了解一门技术的内容,后续会推出本人应用这门技术时发现的一些认识. Vue路由和传统路由的区别: Vue路由主要是用来实现单页面应用内各个组件之间的切换,同样支持传递参数等功能.而传统路 ...
基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层，对每张图片得到一个 4096 维的特征向量，然后我们直接用这个特征向量替代原来的图片，再加若干层全连接的神经网络，对花朵数据集进行训练（属于模型迁移）
基于深度学习和迁移学习的识花实践(转) 深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 Tens ...
对比学习:《深度学习之Pytorch》《PyTorch深度学习实战》+代码
PyTorch是一个基于Python的深度学习平台,该平台简单易用上手快,从计算机视觉.自然语言处理再到强化学习,PyTorch的功能强大,支持PyTorch的工具包有用于自然语言处理的Allen N ...
人工智能新手入门学习路线和学习资源合集（含AI综述/python/机器学习/深度学习/tensorflow）
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 分享个人对于人工智能领域的算法综述:如果你想开始学习算法,不妨先了解人工 ...
HTTP协议学习之Request学习
在开始前,我们首先对HTTP协议做个简单的了解 HTTP协议(Hyper Text Transfer Protocol) 超文本传输协议名词非常的高大上,如果学过计算机网络这门课(再如果还有一点印象 ...

随机推荐

02 . Redis哨兵
Redis高可用概述在 Web 服务器中,高可用是指服务器可以正常访问的时间,衡量的标准是在多长时间内可以提供正常服务(99.9%.99.99%.99.999% 等等).在 Redis ...
SpringBoot 2.x 版本以put方式提交表单不生效的问题详解
在使用SpringBoot 2.x版本时,原有springboot 1.x 版本的通过在表单中添加 input框隐藏域指定_method = put 的方式失效. 虽然浏览器传参的确是带上了这个参数, ...
appnium(一)简介
一.appium简介 1,appium是开源的移动端自动化测试框架: 2,appium可以测试原生的.混合的.以及移动端的web项目: 3,appium可以测试ios,android应用(当然了,还有 ...
团队作业第五次——Alpha冲刺
这个作业属于哪个课程软件工程这个作业要求在哪里团队作业第五次--Alpha冲刺这个作业的目标 Alpha冲刺作业正文正文 github链接项目地址其他参考文献无一.代码规范与计划 ...
Rocket - debug - Example: Write Memory
https://mp.weixin.qq.com/s/on1LugO9fTFJstMes3T2Xg 介绍riscv-debug的使用实例:使用三种方法写内存. 1. Using System Bus ...
数据库之 MySQL --- 数据处理之单行函数、组函数（四）
[1] LOWER : 将字符串中的内容全部转成小写 UPPER : 将字符串中的内容全部转成大写 SELECT LOWER ('abAcD') FROM DUAL SE ...
进程调度函数scheduler_tick()的触发原理：周期PERIODIC定时器
参考文章: https://www.jb51.net/article/133579.htm https://blog.csdn.net/flaoter/article/details/77509553 ...
Java实现 LeetCode 488 祖玛游戏
488. 祖玛游戏回忆一下祖玛游戏.现在桌上有一串球,颜色有红色,黄色(Y),蓝色(B),绿色(G),还有白色(W). 现在你手里也有几个球. 每一次,你可以从手里的球选一个,然后把这个球插入到一串 ...
Java实现蓝桥杯VIP 算法训练数对
算法训练数对时间限制:1.0s 内存限制:512.0MB 问题描述编写一个程序,该程序从用户读入一个整数,然后列出所有的数对,每个数对的乘积即为该数. 输入格式:输入只有一行,即一个整数. 输出 ...
Java实现蓝桥杯数独游戏
你一定听说过"数独"游戏. 如图,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行.每一列.每一个同色九宫内的数字均含1-9,不重复. 数独的答案都是唯一 ...

[强化学习]Part1：强化学习初印象

引入

智能

人工智能

强化学习初印象

强化学习的相关资料

说明

[强化学习]Part1：强化学习初印象的更多相关文章

随机推荐

热门专题