off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
- 论文题目:Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning,ICLR 2020 2021 连续 reject…
- pdf 版本:https://arxiv.org/pdf/1910.00177.pdf
- html 版本:https://ar5iv.labs.arxiv.org/html/1910.00177
- open review:https://openreview.net/forum?id=ToWi1RjuEr8
省流
- 一种结合 off-policy 数据来训 RL 的方法。
- 具体可以看 这篇博客,比本博客写得好(惭愧)
0 abstract
In this work, we aim to develop a simple and scalable reinforcement learning algorithm that uses standard supervised learning methods as subroutines, while also being able to leverage off-policy data. Our proposed approach, which we refer to as advantage-weighted regression (AWR), consists of two standard supervised learning steps: one to regress onto target values for a value function, and another to regress onto weighted target actions for the policy. The method is simple and general, can accommodate continuous and discrete actions, and can be implemented in just a few lines of code on top of standard supervised learning methods. We provide a theoretical motivation for AWR and analyze its properties when incorporating off-policy data from experience replay. We evaluate AWR on a suite of standard OpenAI Gym benchmark tasks, and show that it achieves competitive performance compared to a number of well-established state-of-the-art RL algorithms. AWR is also able to acquire more effective policies than most off-policy algorithms when learning from purely static datasets with no additional environmental interactions. Furthermore, we demonstrate our algorithm on challenging continuous control tasks with highly complex simulated characters.
- method:
- 开发一种简单、可扩展的 RL 算法,该算法使用标准的监督学习方法作为子程序,同时还能利用 off-policy data。
- 我们的算法 优势加权回归(advantage-weighted regression,AWR),由两个标准的监督学习步骤组成:① 对于 value function,回归到 target values,② 对于 policy,回归到 weighted target actions。
- 该方法简单通用,适用于连续和离散的 action,并且可以在标准监督学习方法的基础上,通过几行代码实现。
- 我们为 AWR 提供了理论动机,并在纳入来自 experience replay 的 off-policy data 时,分析了其特性。
- 实验:
- 在一套标准的 OpenAI Gym 基准测试任务上评估了 AWR,并表明,与许多成熟的最先进的 RL 算法相比,它实现了有竞争力的性能。
- 当从纯静态(static)数据集中学习时,AWR 能够获得比大多数 off-policy 算法更有效的策略,而无需额外的环境交互。
- 此外,我们还演示了我们的算法,用于挑战性的连续控制任务,其中具有高度复杂的模拟角色。(盲猜是 kitchen 之类(?))
open review
- (作者似乎放弃了 rebuttal)
- 缺点:
- novelty: proposed method 似乎是对现有 off-policy solver 的微小修改。
- 实验:结果不足以支持该论文的说法, AWR 在几项任务中似乎明显比 SAC 差。
- 理论:理论分析似乎与算法不匹配。
3 method: AWR
- 看不懂算法了,整点知乎博客:
- https://zhuanlan.zhihu.com/p/500001362
- (感觉这个博客讲的很好,别看笔者的博客了,看这篇博客去吧(bless))
- 好像 3.1 节是基本算法,3.2 节是 off-policy。
- off-policy:
- 最新策略 \(\pi_k\) 收集到的数据存储到缓冲区 D 中。对 V 函数进行拟合和策略改进时,采样策略为之前的策略 或者其他不同策略 共同组成的一个复合策略。
- 对每个策略 \(\pi_i\) ,使用权重 \(w_i\) ,定义一个复合策略 \(\mu\) 。
- 直接得到,策略 \(\pi\) 比 \(\mu\) 好的程度,\(\eta(\pi)=J(\pi)-J(\mu)=J(\pi)-\sum_{i=1}^k w_iJ(\pi_i)\) \(=\sum_{i=1}^kw_i(J(\pi)-J(\mu))=\sum_{i=1}^kw_i\big(E_{s\sim d_\pi(s),a\sim\pi(a|s)}[A^{\pi_i}(s,a)]\big)\) 。
- 然后就 arg max \(\pi\) ,β 乘 一个 KL 散度,似乎是希望 \(\pi~\mu\) 尽可能接近;还有一个 α 的 Lagrange 乘子,不知道是什么。
- 理论:见公式 7 - 10。(反正笔者是一点理论也看不懂(哭))
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy的更多相关文章
- Locally Weighted Regression
简单回顾一下线性回归.我们使用了如下变量:\(x\)—输入变量/特征:\(y\)—目标变量:\((x,y)\)—单个训练样本:\(m\)—训练集中的样本数目:\(n\)—特征维度:\((x^{(i)} ...
- Robust Locally Weighted Regression 鲁棒局部加权回归 -R实现
鲁棒局部加权回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 算法参考文献: (1) Robust L ...
- Locally weighted regression algorithm
在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型.的确如此,在普通的linear ...
- Locally weighted regression algorithm
之前所讨论的梯度下降算法,其算法模型是“线性回归模型”,我们可以理解为变量与因变量之间的关系是线性的.而现实情况是,使用线性模型去描述所有数据,很容易出现欠拟合(underfitting)的情况:同样 ...
- 策略模式 Strategy 政策Policy 行为型 设计模式(二十五)
策略模式 Strategy 与策略相关的常见词汇有:营销策略.折扣策略.教学策略.记忆策略.学习策略.... “策略”意味着分情况讨论,而不是一概而论 面对不同年龄段的人,面对不同的商品,必然将会 ...
- 深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods)
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
- locally weighted regression - CS229
欠拟合和过拟合 看下方的三张图 第一幅拟合为了 y=θ0+θ1xy=θ0+θ1x 的一次函数 第二幅拟合为了y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 的二次函数 第三幅拟合为了 y=∑5j ...
- 【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...
- HANA SQL
约束 注释 你可以给你的 SQL 语句添加注释来增加可读性和可维护性. SQL 语句中注释的分隔如下: l 双连字符“--”.所有在双连字符之后直到行尾的内容都被 SQL 解析器认为是注释. l ...
- mysql查看和修改密码策略
8.X版本: #查看密码策略 show variables like '%validate_password.policy%'; show variables like '%validate_pass ...
随机推荐
- 安卓之各组件的LayoutParams分析
文章摘要 在Android开发中,LayoutParams是一个非常重要的概念,它用于描述View在其父容器中的布局行为.不同的ViewGroup有不同的LayoutParams子类,例如Linear ...
- ROW_NUMBER 开窗函数优化方案(Oracle && PostgreSQL 性能比对)
帮朋友优化一条很简单的窗口函数 ROW_NUMBER() OVER() , Oracle 迁移 PostgreSQL项目. 原始SQL和执行计划 STUDENT_BAK 表我模拟的数据,3千万行数据. ...
- C# 获取另一程序控件,改变值,触发事件
[DllImport("User32.dll", EntryPoint = "FindWindow")]private static extern IntPtr ...
- ElasticSearch之虚拟内存
查看当前Linux系统中vm.max_map_count变量的值,命令如下: sysctl vm.max_map_count 执行结果的样例,如下: vm.max_map_count = 65530 ...
- STM32CubeMX教程3 GPIO输入 - 按键响应
1.准备材料 开发板(STM32F407G-DISC1) ST-LINK/V2驱动 STM32CubeMX软件(Version 6.10.0) keil µVision5 IDE(MDK-Arm) 2 ...
- 1、reids 基础
SortedSet类型 特性 1.可排序 2.元素不重复性 3.查询速度快 与普通的集合类型相比,SortedSet 主要有以下两个特点: 有序性:根据分数对元素进行排序,便于范围查找等操作. 不重复 ...
- 六步带你完成博流wifi模组对接华为云流程
摘要:本文主要采用基于博流wifi模组以及我们的SDK移植实现华为云的对接,上报数据以及命令下发等,希望对您有所帮助. 1 简介 首先需要研究透彻博流项目的编译运行流程,首先看其根目录中包括compo ...
- 华为云FusionInsight MRS在金融行业存算分离的实践
摘要:华为云FusionInsight MRS的大数据存算分离解决方案,实现资源价值最大化,存储与计算资源全面云化.灵活配置.弹性伸缩,降本增效. 在大数据.云计算.5G.AI等技术日新月异,数字经济 ...
- 用GaussDB(for Redis)存画像,推荐业务轻松降本60%
摘要:用户画像存储是推荐业务核心,但开源Redis无法胜任.华为云高斯Redis是最佳存储选型,轻松降本60%,同时获得企业级高稳定性. 本文分享自华为云社区<华为云GaussDB(for Re ...
- 百度高德地图JS-API学习手记:地图基本设置与省市区数据加载
无论是百度还是高德地图开发,还是高德地图开发.官方的给的案例启示很多,copy再修改下,就完成了 https://lbs.amap.com/api/javascript-api/summary ht ...