李宏毅强化学习完整笔记!开源项目《LeeDeepRL-Notes》发布
Datawhale开源
核心贡献者:王琦、杨逸远、江季
提起李宏毅老师,熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。
现在,强化学习爱好者有更完善的学习资料了! Datawhale开源项目组成员总结了李宏毅的强化学习视频,实现了视频教程的完整梳理和复现,再也不用担心强化学习。
目前,项目已完全开源,包括课程内容、配套的习题和项目,供大家使用。
1. 李宏毅深度强化学习简介
李宏毅老师现任台湾大学电气工程系副教授,主要研究方向是机器学习,特别是深度学习。他有一系列公开的强化学习课程视频,也是很多人入门的教程。
李宏毅老师的课程包括很多常见的强化学习算法,比如策略梯度、PPO、DQN、DDPG、演员-评论员算法、模仿学习、稀疏奖励等算法。此外,我们还补充了马尔可夫决策过程、Q-learning、Sarsa、REINFORCE 等强化学习常见的算法及概念。
「策略梯度」课程中的 PPT,解释了策略梯度的过程
「近端策略优化算法」课程中的 PPT,展示了重要性采样的问题
李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一。李老师幽默风趣的上课风格让晦涩的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。
此外,为了课程的完整性,我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。 对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。
但是,考虑到很多强化学习爱好者对于课程笔记的需求,我们不仅仅需要的是教学视频。我们需要一份课程笔记,能够引领学习者的思路,帮助引导他们进入这个领域。因此,就诞生了这款《LeeDeepRL-Notes》李宏毅深度强化学习笔记。
2.《LeeDeepRL-Notes》李宏毅深度强化学习笔记
LeeDeepRL-Notes 是 Datawhale 自《李宏毅机器学习笔记》后的又一开源学习项目,由团队成员王琦、杨毅远、江季历时四个月协作而成,实现了李宏毅老师深度强化学习课程内容的 100% 复现,并且在此基础上补充了有助于学习理解的相关资料和内容,对重难点公式进行了补充推导。
期间,Datawhale 组织了《深度强化学习基础》学习,在众多学习者共同的努力下,对该内容进行了迭代和补充。下面,让我们来详细了解下工作详情吧。
具体工作:
2020 年 6 月 -- 2020 年 7 月:笔记整理初级阶段,视频 100% 复现;
2020 年 7 月 -- 2020 年 10 月:添加相关的习题和项目,对笔记内容及排版迭代优化;
2020 年 10 月 -- 2020 年 11 月:组队学习《深度强化学习基础》并对内容进行迭代完善;
2020 年 11 月:最后内容修正,正式推广。
10月《深度强化学习基础》组队学习中学习者的评价
3.《LeeDeepRL-Notes》学习笔记框架
3.a 亮点
这份学习笔记具有以下优点:
完全将李宏毅老师的讲课内容转为文字,方便学习者查阅参考。
为了课程的完整性,我们还整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。
配有相关的习题和项目。
3.b 笔记框架
内容在整体框架上与李宏毅老师的深度强化学习课程保持一致。建议学习过程中将李宏毅老师的视频和这份资料搭配使用,效果极佳。笔记也和课程视频完全同步。
内容导航见下:
4. 笔记内容细节展示
4.a 对 Q-learning 概念的解析
在笔记中重新整理 PPT 内容,并增加了一些注释
4.b Actor-Critc 算法的引入
根据内容整理成知识点,方便读者理解阅读
在整理过程中,我们并不对视频语音直接转文字,而是根据内容整理成知识点,方便读者理解阅读。
4.c 利用贴近学生的例子解释知识点
强化学习基本概念的解释
5. 习题(查漏补缺)
只有教程怎么够,来点儿课后习题和关键字总结帮助大家查漏补缺也是极好的。我们根据每一章的内容,并结合其他的网络资料,原创了课后习题以及关键字的总结,辅助你在更短的时间内查漏补缺,令你更快的将“零碎、无序”的知识“拼接”完整。
5.a 关键字让你快速 get 到文章的要点
在每章教程的后面,我们都会结合每章的内容,将定义、具体算法、专业名词等关键字和知识点,使用最短、最精确且最白话的方式总结,供大家吸收与巩固。
教程第二章部分关键字示意图
5.b 习题与参考答案助力你的查漏补缺
除了关键词,我们还提供了章节对应的习题供大家查漏补缺,并且结合其他资料,提供了详细、易懂的答案供大家参考。
教程第一章部分习题以及对应参考答案示意图
6. 项目(动手实践)
强化学习少了实践怎么行,这边挑了三个项目,都基于流行的 OpenAI gym 环境,让你快速入门,循序渐进,主要包括:
6.a 对项目的简易描述
6.b 层次清晰的手写代码
将整个强化学习过程分成以上几个子模块,方便拆解与改动,并且契合原论文的伪代码,在main.py中提供基本接口:
6.c 使用 Tensorboard 进行可视化
6.d 丰富的持续更新
在刚刚结束的组队学习中,助教耐心地解答了大家的疑惑,并且会根据反馈的情况,在之后的一个月内,持续更新项目的设计方法和详细的代码思路讲解,敬请期待~
7. 配套视频
视频地址:https://www.bilibili.com/video/BV1MW411w79n
8. 开源地址
项目地址:https://github.com/datawhalechina/leedeeprl-notes 或点击阅读原文获取,欢迎star!
李宏毅强化学习完整笔记!开源项目《LeeDeepRL-Notes》发布的更多相关文章
- 嵌入式 十个最值得阅读学习的C开源项目代码
开源世界有许多优秀的开源项目,我选取其中十个最优秀的.最轻量级的C语言的项目,希望可以为C语言开发人员提供参考. 十个最值得阅读学习的C开源项目代码 1. Webbench 2. Tinyhttpd ...
- 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S ...
- 强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)
强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces) 学习笔记: Reinforcement Learning: An Introduction, Richard S. S ...
- 强化学习读书笔记 - 02 - 多臂老O虎O机问题
# 强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and An ...
- 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...
- 强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richa ...
- 强化学习读书笔记 - 11 - off-policy的近似方法
强化学习读书笔记 - 11 - off-policy的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and ...
- 强化学习读书笔记 - 10 - on-policy控制的近似方法
强化学习读书笔记 - 10 - on-policy控制的近似方法 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton an ...
- 强化学习读书笔记 - 09 - on-policy预测的近似方法
强化学习读书笔记 - 09 - on-policy预测的近似方法 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and A ...
随机推荐
- 来自Java程序员的Python新手入门小结
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
- MongoDB笔记:windows环境安装及连接本地数据库
下载MongoDB 2.4.9版 mongodb官网下载:http://www.mongodb.org/downloads 直接下载地址:http://fastdl.mongodb.org/win32 ...
- Dynamic Routing Between Capsules
目录 概 主要内容 损失函数 代码 Sabour S, Frosst N, Hinton G E, et al. Dynamic Routing Between Capsules[C]. neural ...
- Inverse/Implicit Function Theorem
目录 4.1 The Inverse Function Theorem The Implicit Function Theorem 4.3 Curves and Surfaces 4.4 The Mo ...
- 初识JavaScript变量
一.什么是变量? 变量即变化的量,在JS中变量是松散类型的,可以用来保存任何数据类型.把数据取个名字,放在内存中,就称之为变量! 通过变量名可以取到对应数据 二.为什么使用变量? 程序:代码的集合,一 ...
- [学习笔记] Oracle体系结构、下载安装、创建实例、客户端工具、网络服务名、服务管理
Oracle体系结构 实例: 一个操作系统只有一个 Oracle 数据库 一个 Oracle 数据库可以有多个 Oracle 实例(通常只安装一个实例) 一个实例对应着一系列的后台进程和内存结构 表空 ...
- hisql 新一代无实体ORM使用第一步 hisql安装使用
安装 github hisql 最新源码下载 也可以通过nuget安装 注意:HiSql仅支持.net5或以上环境 选择您需要支持的数据库对应的支持包进行安装 本例使用sqlserver进行演示,请安 ...
- C# - 集合差集计算
使用 Except 方法做差集, 结果赋值给 IEnumerable 类 ,这是一个枚举集合类 ,泛型使用对应的类型即可,没办法之间使用count 或 lenght 方法获取,只能循环计算
- Python 国内镜像源
让 python pip 使用国内镜像源 国内镜像源: 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.co ...
- Linux上天之路(十)之Linux磁盘管理
主要内容 磁盘介绍 磁盘管理 磁盘限额 逻辑卷管理 磁盘阵列 1. 磁盘介绍 硬盘最基本的组成部分是由坚硬金属材料制成的涂以磁性介质的盘片,不同容量硬盘的盘片数不等.每个盘片有两面,都可记录信息.盘片 ...