直接策略微分

Goal：
idea：求最大值：直接求导
tip：利用log导数等式进行变换
具体推导：

理解策略梯度

假定开始policy服从高斯分布，采样得到回报，计算梯度，根据reward增加动作概率，改变policy分布

会发生的错误：高方差
- 当采样有负奖励样本的时候（绿色奖励），原本policy改变向右移动更多（最右边的虚曲线）；改变奖励（添加常量），变为正奖励（黄色奖励），向右移动的少了（中间虚曲线），从而这导致了高差异（相比于之前的曲线）。
- 如果对于无限样本，不会导致差异。
- 如果回报为0，那么它们的policy梯度就不重要。

减少方差

因果关系：放弃过去的回报，policy不会影响t之前的回报
Baselines：不会改变期望值，会改变方差

一般取b为回报均值：【but使得方差最小（即方差为0）的b不是回报均值】

Off-policy PG

REINFORCE algorithm（on-policy）
- 缺点：每次改进参数都要扔掉样本（样本利用率低）；单步梯度更新
- 在基本RL过程中的表示：
重要性采样原理（IS）：实现从on-policy到off-policy
- 原理：
- 应用于RL：重用以前的policy（用旧policy 进行采样，然后改进参数）
应用
- 使用自动差分器：伪loss进行反向传播
- 实际要考虑
  - 梯度的高方差
  - 批量学习batch size
  - 学习率的调整learning rate
  - 优化器的选择optimizers

Advanced PG

学习率的难题

policy参数服从高斯分布，梯度总会趋向于更小的方差的方向移动，方差就成了决定性因素，均值就不动了，梯度速度就慢了，继而收敛慢了。故学习率调整的难题，如果速度小，学习率大，会使得policy在均值方向上很快不动。
自然梯度
自动步长调整

.....

Resource：CS285官网资料

 版权归原作者 Lee_ing 所有

未经原作者允许不得转载本文内容，否则将视为侵权;转载或者引用本文内容请注明来源及原作者

lec-5-Policy Gradients的更多相关文章

(zhuan) Deep Deterministic Policy Gradients in TensorFlow
Deep Deterministic Policy Gradients in TensorFlow AUG 21, 2016 This blog from: http://pemami49 ...
几句话总结一个算法之Policy Gradients
强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢 Policy Gradients(PG)计算某个状 ...
Policy Gradient Algorithms
Policy Gradient Algorithms 2019-10-02 17:37:47 This blog is from: https://lilianweng.github.io/lil-l ...
（转）RL — Policy Gradient Explained
RL — Policy Gradient Explained 2019-05-02 21:12:57 This blog is copied from: https://medium.com/@jon ...
(转) How to Train a GAN? Tips and tricks to make GANs work
How to Train a GAN? Tips and tricks to make GANs work 转自:https://github.com/soumith/ganhacks While r ...
(转) Deep Learning Research Review Week 2: Reinforcement Learning
Deep Learning Research Review Week 2: Reinforcement Learning 转载自: https://adeshpande3.github.io/ad ...
(转) Deep Reinforcement Learning: Pong from Pixels
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from ...
[Reinforcement Learning] 强化学习介绍
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义先借用维基百科上对强化 ...
花十分钟，让你变成AI产品经理
花十分钟,让你变成AI产品经理 https://www.jianshu.com/p/eba6a1ca98a4 先说一下你阅读本文可以得到什么.你能得到AI的理论知识框架:你能学习到如何成为一个AI产品 ...
学习笔记TF037:实现强化学习策略网络
强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题.强化学习问题三概念,环境状态(Environment State).行动(Action).奖励(Reward ...

随机推荐

JDK 7 HashMap 并发情况下的死锁问题
目录问题描述详细解释问题描述 JDK7的 HashMap 解决冲突用的是链表,在插入链表的时候用的是头插法,每次在链表的头部插入新元素.resize() 的时候用的依然是头插,头插的话,如果某个 ...
与NewBing一起写作：《Web应用安全入门》
前言本文内容基于我的<Web应用安全入门>公开课视频. Prompt:下面是一篇课程音频转录后的文本,请把它转成老师和学生对话形式的文本,要求遵循原文结构,语言衔接流畅,保持 Markd ...
控制论个人学习笔记-线性系统的校正方法&现代控制论基础
note 2020-08-05搬运下面的内容来自(我的CSDN博客)[https://blog.csdn.net/weixin_45183579/article/details/105201314] ...
new做了哪些事情,手写一个new
1)创建一个空对象,将构造函数中的this指向这个空对象 2)将空对象的__proto__指向构造函数的prototype原型 3)执行构造函数里面的代码,为这个空对象添加属性和方法 4)返回一个新的 ...
CANN训练：模型推理时数据预处理方法及归一化参数计算
摘要:在做基于Ascend CL模型推理时,通常使用的有OpenCV.AIPP.DVPP这三种方式,或者是它们的混合方式,本文比较了这三种方式的特点,并以Resnet50的pytorch模型为例,结合 ...
PDF打开后显示的名称不是其文件名怎么办？
本文介绍打开PDF文件时,PDF阅读器所显示的文件名称与文件实际名称不一致的解决办法. 就在刚刚准备一篇空间三维建模相关的博客时,偶然发现了如下一个问题: 在打开这个图中名称为空间三维建模 ...
Django之数据库操作入门
目录 pycharm连接mysql数据库 pycharm与数据库图形化交互方式 pycharm后台连接数据库 django连接数据库报错 ORM简介 ORM建表 ORM入门之增删改查 ORM写数据 O ...
window远程桌面
此文档概述如何开启win8.win8.1系统的远程桌面连接服务,可以让我们从一台电脑远程连接的其他电脑! 同时按"win键+R键",再打开的运行对话框中输入"contro ...
Django相关配置信息
Django相关配置信息 1.配置数据库mysql 1.1 setting.py中配置信息 DATABASES = { 'default': { 'ENGINE': 'django.db.backen ...
如何玩转国产神器：接口一体化协作平台Apifox！
前言:Apifox是什么? 简介: 简单来说,Apifox = swagger + mock + postman+Jmeter,是API 文档.API 调试.API Mock.API 自动化测试一体化 ...

lec-5-Policy Gradients

直接策略微分

理解策略梯度

减少方差

Off-policy PG

Advanced PG

lec-5-Policy Gradients的更多相关文章

随机推荐

热门专题