off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
- 论文题目:Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning,ICLR 2020 2021 连续 reject…
- pdf 版本:https://arxiv.org/pdf/1910.00177.pdf
- html 版本:https://ar5iv.labs.arxiv.org/html/1910.00177
- open review:https://openreview.net/forum?id=ToWi1RjuEr8
省流
- 一种结合 off-policy 数据来训 RL 的方法。
- 具体可以看 这篇博客,比本博客写得好(惭愧)
0 abstract
In this work, we aim to develop a simple and scalable reinforcement learning algorithm that uses standard supervised learning methods as subroutines, while also being able to leverage off-policy data. Our proposed approach, which we refer to as advantage-weighted regression (AWR), consists of two standard supervised learning steps: one to regress onto target values for a value function, and another to regress onto weighted target actions for the policy. The method is simple and general, can accommodate continuous and discrete actions, and can be implemented in just a few lines of code on top of standard supervised learning methods. We provide a theoretical motivation for AWR and analyze its properties when incorporating off-policy data from experience replay. We evaluate AWR on a suite of standard OpenAI Gym benchmark tasks, and show that it achieves competitive performance compared to a number of well-established state-of-the-art RL algorithms. AWR is also able to acquire more effective policies than most off-policy algorithms when learning from purely static datasets with no additional environmental interactions. Furthermore, we demonstrate our algorithm on challenging continuous control tasks with highly complex simulated characters.
- method:
- 开发一种简单、可扩展的 RL 算法,该算法使用标准的监督学习方法作为子程序,同时还能利用 off-policy data。
- 我们的算法 优势加权回归(advantage-weighted regression,AWR),由两个标准的监督学习步骤组成:① 对于 value function,回归到 target values,② 对于 policy,回归到 weighted target actions。
- 该方法简单通用,适用于连续和离散的 action,并且可以在标准监督学习方法的基础上,通过几行代码实现。
- 我们为 AWR 提供了理论动机,并在纳入来自 experience replay 的 off-policy data 时,分析了其特性。
- 实验:
- 在一套标准的 OpenAI Gym 基准测试任务上评估了 AWR,并表明,与许多成熟的最先进的 RL 算法相比,它实现了有竞争力的性能。
- 当从纯静态(static)数据集中学习时,AWR 能够获得比大多数 off-policy 算法更有效的策略,而无需额外的环境交互。
- 此外,我们还演示了我们的算法,用于挑战性的连续控制任务,其中具有高度复杂的模拟角色。(盲猜是 kitchen 之类(?))
open review
- (作者似乎放弃了 rebuttal)
- 缺点:
- novelty: proposed method 似乎是对现有 off-policy solver 的微小修改。
- 实验:结果不足以支持该论文的说法, AWR 在几项任务中似乎明显比 SAC 差。
- 理论:理论分析似乎与算法不匹配。
3 method: AWR
- 看不懂算法了,整点知乎博客:
- https://zhuanlan.zhihu.com/p/500001362
- (感觉这个博客讲的很好,别看笔者的博客了,看这篇博客去吧(bless))
- 好像 3.1 节是基本算法,3.2 节是 off-policy。
- off-policy:
- 最新策略 \(\pi_k\) 收集到的数据存储到缓冲区 D 中。对 V 函数进行拟合和策略改进时,采样策略为之前的策略 或者其他不同策略 共同组成的一个复合策略。
- 对每个策略 \(\pi_i\) ,使用权重 \(w_i\) ,定义一个复合策略 \(\mu\) 。
- 直接得到,策略 \(\pi\) 比 \(\mu\) 好的程度,\(\eta(\pi)=J(\pi)-J(\mu)=J(\pi)-\sum_{i=1}^k w_iJ(\pi_i)\) \(=\sum_{i=1}^kw_i(J(\pi)-J(\mu))=\sum_{i=1}^kw_i\big(E_{s\sim d_\pi(s),a\sim\pi(a|s)}[A^{\pi_i}(s,a)]\big)\) 。
- 然后就 arg max \(\pi\) ,β 乘 一个 KL 散度,似乎是希望 \(\pi~\mu\) 尽可能接近;还有一个 α 的 Lagrange 乘子,不知道是什么。
- 理论:见公式 7 - 10。(反正笔者是一点理论也看不懂(哭))
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy的更多相关文章
- Locally Weighted Regression
简单回顾一下线性回归.我们使用了如下变量:\(x\)—输入变量/特征:\(y\)—目标变量:\((x,y)\)—单个训练样本:\(m\)—训练集中的样本数目:\(n\)—特征维度:\((x^{(i)} ...
- Robust Locally Weighted Regression 鲁棒局部加权回归 -R实现
鲁棒局部加权回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 算法参考文献: (1) Robust L ...
- Locally weighted regression algorithm
在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型.的确如此,在普通的linear ...
- Locally weighted regression algorithm
之前所讨论的梯度下降算法,其算法模型是“线性回归模型”,我们可以理解为变量与因变量之间的关系是线性的.而现实情况是,使用线性模型去描述所有数据,很容易出现欠拟合(underfitting)的情况:同样 ...
- 策略模式 Strategy 政策Policy 行为型 设计模式(二十五)
策略模式 Strategy 与策略相关的常见词汇有:营销策略.折扣策略.教学策略.记忆策略.学习策略.... “策略”意味着分情况讨论,而不是一概而论 面对不同年龄段的人,面对不同的商品,必然将会 ...
- 深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods)
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
- locally weighted regression - CS229
欠拟合和过拟合 看下方的三张图 第一幅拟合为了 y=θ0+θ1xy=θ0+θ1x 的一次函数 第二幅拟合为了y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 的二次函数 第三幅拟合为了 y=∑5j ...
- 【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...
- HANA SQL
约束 注释 你可以给你的 SQL 语句添加注释来增加可读性和可维护性. SQL 语句中注释的分隔如下: l 双连字符“--”.所有在双连字符之后直到行尾的内容都被 SQL 解析器认为是注释. l ...
- mysql查看和修改密码策略
8.X版本: #查看密码策略 show variables like '%validate_password.policy%'; show variables like '%validate_pass ...
随机推荐
- MybatisPlus查询时过滤不需要的字段~
解释一下:乍一看标题可能有点懵~,其实就是想查询的时候过滤掉某些字段 例如: select name,email,password from user; --改为-> select name,e ...
- Liunx--centos7服务器上 安装 jenkins,实现持续集成发布
1.下载并安装jenkins wget -v https://pkg.jenkins.io/redhat-stable/jenkins-2.176.3-1.1.noarch.rpmrpm -ivh j ...
- MinIO客户端之diff
MinIO提供了一个命令行程序mc用于协助用户完成日常的维护.管理类工作. 官方资料 mc diff 检查指定桶内对象清单的差异,注意不比较对象内容的差异,命令如下: ./mc diff local1 ...
- CentOS 7.3 操作系统 详解安装手册
CentOS 7.3 操作系统 安装手册 在安装ESPC前(绿盟WAF.IPS等外置日志中心),需要确保已经在计算机中正确安装CentOS 7.3 x86_64(内核版本为3.10.0-514.el7 ...
- 主控FC1179 U盘量产修复
当我们的U盘出现如下情况的话,可以做为参考修复 第一步:可以用Chip Genius工具,查看U盘主控(可得知主控厂商:一芯 ,主控型号:FC1179). 第二步:下载主控相对应的量产工具(笔者已经上 ...
- 如何延长window11更新信息?
前言 日常使用电脑的时候,我们总是会遇到一个很常见的问题:如何关闭windows自动更新. 解决方法一: 暂停更新 解决方法二: 打开注册表: 运行 => regedit 进入: HKEY_LO ...
- CodeForces 1141F2 贪心 离散化
CodeForces 1141F2 贪心 离散化 题意 给定一个序列,要求我们找出最多数量的不相交区间,每个区间和都相等. 思路 一开始没有头绪,不过看到 \(n \le 1500\) 后想到可以把所 ...
- 华为云FusionInsight MRS在金融行业存算分离的实践
摘要:华为云FusionInsight MRS的大数据存算分离解决方案,实现资源价值最大化,存储与计算资源全面云化.灵活配置.弹性伸缩,降本增效. 在大数据.云计算.5G.AI等技术日新月异,数字经济 ...
- 实践GoF的23的设计模式:SOLID原则(下)
摘要:本文将讲述SOLID原则中的接口隔离原则和依赖倒置原则. 本文分享自华为云社区<实践GoF的23的设计模式:SOLID原则(下)>,作者:元闰子. 在<实践GoF的23种设计 ...
- A/B 实验避坑指南:为什么不建议开 AABB 实验
更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 本文将针对日常开设 A/B 实验过程中一个不太合理的使用方法--AABB 实验进行详细的解释,告诉大家为什么不建议 ...