从PG→Policy evaluation

更多样本的均值+Causality+Baseline 减少variance
只要拟合估计Q、V：这需要两个网络
Value function fitting（即策略评估）

近似：
MC evaluation

一种更好的方法：自举

从evaluation→AC

拟合V进行评估，提升policy
- V网络的更新：
- 策略网络policy的更新：
在RL基本流程图中：
改进方法
- 折扣因子：对近期回报的偏好程度
- 折扣因子（MC方法）的分配：
改进设计
- 网络架构设计：两个独立网络变成共享网络（共享内部信息来加快训练速度）
- Online
  - 同步并行A2C
  - 异步并行A3C
- Offline
  - Replay buffer
Critics(V) as baselines
- 状态独立baselines（单个样本的期望估计-V）：无偏，低variance
  - AC：低variance，有偏（目标值和估计值都由V影响）
  - PG：高variance（单样本估计），无偏
- 动作独立的baselines: 会出现不正确的
- n-step returns
  - n越大，偏差越小，方差越高
- GAE

Resource：CS285官网资料

 版权归原作者 Lee_ing 所有

未经原作者允许不得转载本文内容，否则将视为侵权;转载或者引用本文内容请注明来源及原作者

lec-6-Actor-Critic Algorithms的更多相关文章

深度增强学习--Actor Critic
Actor Critic value-based和policy-based的结合实例代码 import sys import gym import pylab import numpy as np ...
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 20 ...
(转) Using the latest advancements in AI to predict stock market movements
Using the latest advancements in AI to predict stock market movements 2019-01-13 21:31:18 This blog ...
(zhuan) 一些RL的文献（及笔记）
一些RL的文献(及笔记) copy from: https://zhuanlan.zhihu.com/p/25770890 Introductions Introduction to reinfor ...
Awesome TensorFlow
Awesome TensorFlow A curated list of awesome TensorFlow experiments, libraries, and projects. Inspi ...
DRL强化学习：
IT博客网热点推荐推荐博客编程语言数据库前端 IT博客网 > 域名隐私保护免费 DRL前沿之:Hierarchical Deep Reinforcement Learning 来源: ...
学习笔记TF053:循环神经网络，TensorFlow Model Zoo，强化学习，深度森林，深度学习艺术
循环神经网络.https://github.com/aymericdamien/TensorFlow-Examples/blob/master/examples/3_NeuralNetworks/re ...
David Silver强化学习Lecture1：强化学习简介
课件:Lecture 1: Introduction to Reinforcement Learning 视频:David Silver深度强化学习第1课 - 简介 (中文字幕) 强化学习的特征作为 ...
强化学习--Actor-Critic---tensorflow实现
完整代码:https://github.com/zle1992/Reinforcement_Learning_Game Policy Gradient 可以直接预测出动作,也可以预测连续动作,但是无 ...
论文笔记：Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments
Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 2017-10-25 16:38:23 [Proj ...

随机推荐

钉钉获取第三方token时提示签名时间戳参数超时的处理方法
今天在更新平台功能时,碰到一个问题,从钉钉跳转到平台,始终不能成功.查看日志发现,出现了签名时间戳参数超时的错误. 想着没有动过相对应的代码,应该不是代码的问题. 查询官方文档,没有给出明确的答复 ...
DVWA-XSS (DOM) DOM型跨站脚本攻击
XSS(Cross Site Scripting),跨站脚本攻击,能使攻击者在页面嵌入一些脚本代码,用户再访问,被诱导点击时,执行恶意脚本,常见为javascript,也有Flash.VBscript ...
salesforce零基础学习（一百二十七）Custom Metadata Type 篇二
本篇参考: salesforce零基础学习(一百一十一)custom metadata type数据获取方式更新 https://developer.salesforce.com/docs/atlas ...
Python查找存储区0KB文件并记录下地址
查找存储区域中0KB大小文件,可以根据需要变更指定大小. #-*- coding: utf-8 -*- #!/usr/bin/python from os.path import isdir,absp ...
使用 Agora 为Android APP添加视频直播
add-live-streaming-to-your-android-app-using-agora-featured1024×512 121 KB 视频互动直播是当前比较热门的玩法,我们经常见到有P ...
Z 函数
简单记一下,避免忘记. z 函数对于字符串 \(S\),我们将 \(z(i)\) 定义为从 \(i\) 开始的后缀与 \(S\) 的最长公共前缀的长度. \(O(n)\) 求出 z 函数我们添加一 ...
如何快速弄懂Java线程池
Java线程池是一种高效的多线程编程技术,它可以帮助程序员有效地控制多线程的并发执行.它可以提高应用程序的性能.降低内存消耗和减少延迟. 线程池的原理是,程序员可以将每个任务放入线程池中,然后由线程池 ...
Java面试——JVM知识
一.什么情况下会发生栈内存溢出 [1]线程请求的栈深度大于虚拟机所允许的深度,将抛出 StackOverflowError 异常.递归的调用一个简单的方法,不断累积就会抛出 StackOverflow ...
从0搭建Vue3组件库(七):使用 glup 打包组件库并实现按需加载
使用 glup 打包组件库并实现按需加载当我们使用 Vite 库模式打包的时候,vite 会将样式文件全部打包到同一个文件中,这样的话我们每次都要全量引入所有样式文件做不到按需引入的效果.所以打包的 ...
MySQL高可用架构-MMM、MHA、MGR、分库分表
总结 MMM是是Perl语言开发的用于管理MySQL主主同步架构的工具包.主要作用:管理MySQL的主主复制拓扑,在主服务器失效时,进行主备切换和故障转移. MMM缺点:故障切换可能会丢事务(主备使用 ...

lec-6-Actor-Critic Algorithms

从PG→Policy evaluation

从evaluation→AC

lec-6-Actor-Critic Algorithms的更多相关文章

随机推荐

热门专题