模仿学习imitation learning与RL的不同

模仿学习中需要有专家指导的信息
RL不需要访问专家信息

RL Definitions

奖励函数
马尔科夫决策链
- 只与上一个状态有关
目的
空间
- 有限
  - 可找到最优参数
- 无限
  - 证明p的概率分布是个平稳分布stationary distribution
期望
- 由于奖励函数是不平滑的
  - 转换: 但是可以优化看似不平滑甚至稀疏的奖励功能（不平滑or不可微的期望）在可微且平稳的概率下的函数

算法

基本过程：
- 生成样本→调整模型/估计回报（评估policy）→提升策略policy→生成样本
- 各部分代价
  - 生成样本
    
    Expensive：真实环境进行一次，也许代价会很高，机器人、车、电网等
    
    cheap：模拟环境
  - 评估policy
    
    expensive：学习神经网络大量参数
    
    cheap：MC等求均值等
  - 提升policy
    
    expensive：反向传播大量参数求导
    
    cheap：回报均值梯度求导更新
Value Functions（基于值的）
- 核心：第二步（评估policy）使用Q-function or value function
- 定义
  - 期望：
  - Q-function：
  - Value function：
  - 关系：
  - Idea：
    
    Policy iteration：Policy+Q-function → improve policy
    
    比较QandV，if Q>V, 计算梯度增加动作概率
算法类型
- Policy gradients
- Value-based：拟合/评估Q、V
- Actor-critic
- Model-based RL：重点在提升policy上
算法的tradeoffs（权衡）→以至于出现如此多算法
- Sample efficiency
- Stability and ease of use
  - 值函数拟合：定点迭代
    - 深度网络不能保证收敛性
  - 基于模型的
    - 收敛but不能保证model=better policy
  - 策略梯度
    - 只有一个在真正的目标上执行梯度下降（上升）的
- 各类算法

Resource：CS285官网资料

 版权归原作者 Lee_ing 所有

未经原作者允许不得转载本文内容，否则将视为侵权:转载或者引用本文内容请注明来源及原作者

lec-4-Introduction to Reinforcement Learning的更多相关文章

Ⅰ Introduction to Reinforcement Learning
Dictum: To spark, often burst in hard stone. -- William Liebknecht 强化学习(Reinforcement Learning)是模仿人 ...
强化学习一：Introduction Of Reinforcement Learning
引言: 最近和实验室的老师做项目要用到强化学习的有关内容,就开始学习强化学习的相关内容了.也不想让自己学习的内容荒废掉,所以想在博客里面记载下来,方便后面复习,也方便和大家交流. 一.强化学习是什么? ...
[转]Introduction to Learning to Trade with Reinforcement Learning
Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduc ...
Introduction to Learning to Trade with Reinforcement Learning
http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ The academic ...
(转) Deep Learning Research Review Week 2: Reinforcement Learning
Deep Learning Research Review Week 2: Reinforcement Learning 转载自: https://adeshpande3.github.io/ad ...
（转）Applications of Reinforcement Learning in Real World
Applications of Reinforcement Learning in Real World 2018-08-05 18:58:04 This blog is copied from: h ...
Training spiking neural networks for reinforcement learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...
强化学习 reinforcement learning： An Introduction 第一章， tic-and-toc 代码示例（结构重建版，注释版）
强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了, 最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习, ...
深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction
转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...
Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...

随机推荐

DNS BIND之dnssec安全
公司一大早域名解析出问题了,网抓项目都无法抓取到进销存数据. 查询后发现是运维周末重启了dns服务. 网上找到的解决方法: 在BIND的配置文件(/etc/named.conf)中打开DNSSEC选项 ...
nat是干什么的，为什么要有nat？以及谈谈ovs里使用ct实现nat功能
博客竟然不显示更新的时间,只有个发布时间.看起来像2个月没更新一样,其实更新了几行呢.好几个东西想理一下,本来想和周记放一起了,但放一起就没有主题了. 当然一搜也有一些很好的博客,更详细:https: ...
Android 音视频 - EGL 源码解析以及 C++ 实现
OpenGL 是一个跨平台的 API,而不同的操作系统(Windows,Android,IOS)各有自己的屏幕渲染实现.所以 OpenGL 定义了一个中间接口层 EGL(Embedded Graphi ...
CSPS2019 括号树题解
链的部分分我们设f[i]表示以i结尾的括号序列有多少个,那么i的实际答案就是f的前缀和显然,所有左括号和不能匹配的右括号的f均为0 对于每一个能匹配的右括号i,我们找到与之匹配的左括号p,以i结尾 ...
C++/Qt网络通讯模块设计与实现(三)
上一节给大家从源码级别分析了SNetClient网络客户端的实现过程,详见C++/Qt网络通讯模块设计与实现(二),并给大家留了一个疑问,即引入SNetClientRunning类是为了解决什么问题 ...
JAVA异步编程之Callbacks与Futures模型
JAVA异步编程之Callbacks与Futures模型一:Callbacks模型该模型的异步方法,在异步任务完成之后调用,主线程没有异步线程的结果.经典模型如Swing's EventLis ...
Java多线程——Thread类
Java多线程--Thread类 Java 中线程实现方式有两种: 继承Thread类,并重写run方法实现Runnable接口的run方法 Thread类使用方法:继承Thread类,并重写ru ...
vue中新的状态管理器-pinia
背景对于pinia的使用,可参考官方文档在这不做过多赘述.这边主要来讲讲pinia中少用且好用的方法,为什么我们选择pinia而不用vuex ps: 以下写法全部基于组合式API 使用方式: 先下 ...
Python中实现单例的几种方式
Python如何实现单例? 什么是单例模式? 单例模式:一个类只能有一个实例化对象存在的模式. 如何实现单例? 1.使用模块 python中模块是天然的单例模式,当一个模块被调用时,会生成对应的.py ...
使用“纯”Servlet做一个单表的CRUD操作
使用"纯"Servlet做一个单表的CRUD操作每博一文案庄子说:"独往独来,是谓独有.独有之人,是谓至贵".热闹是别人的狂欢,而孤独是自己的自由. 相聚总 ...

lec-4-Introduction to Reinforcement Learning

模仿学习imitation learning与RL的不同

RL Definitions

算法

基本过程：

Value Functions（基于值的）

算法类型

算法的tradeoffs（权衡）→以至于出现如此多算法

lec-4-Introduction to Reinforcement Learning的更多相关文章

随机推荐

热门专题