off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy
- 论文题目:Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning,ICLR 2020 2021 连续 reject…
- pdf 版本:https://arxiv.org/pdf/1910.00177.pdf
- html 版本:https://ar5iv.labs.arxiv.org/html/1910.00177
- open review:https://openreview.net/forum?id=ToWi1RjuEr8
省流
- 一种结合 off-policy 数据来训 RL 的方法。
- 具体可以看 这篇博客,比本博客写得好(惭愧)
0 abstract
In this work, we aim to develop a simple and scalable reinforcement learning algorithm that uses standard supervised learning methods as subroutines, while also being able to leverage off-policy data. Our proposed approach, which we refer to as advantage-weighted regression (AWR), consists of two standard supervised learning steps: one to regress onto target values for a value function, and another to regress onto weighted target actions for the policy. The method is simple and general, can accommodate continuous and discrete actions, and can be implemented in just a few lines of code on top of standard supervised learning methods. We provide a theoretical motivation for AWR and analyze its properties when incorporating off-policy data from experience replay. We evaluate AWR on a suite of standard OpenAI Gym benchmark tasks, and show that it achieves competitive performance compared to a number of well-established state-of-the-art RL algorithms. AWR is also able to acquire more effective policies than most off-policy algorithms when learning from purely static datasets with no additional environmental interactions. Furthermore, we demonstrate our algorithm on challenging continuous control tasks with highly complex simulated characters.
- method:
- 开发一种简单、可扩展的 RL 算法,该算法使用标准的监督学习方法作为子程序,同时还能利用 off-policy data。
- 我们的算法 优势加权回归(advantage-weighted regression,AWR),由两个标准的监督学习步骤组成:① 对于 value function,回归到 target values,② 对于 policy,回归到 weighted target actions。
- 该方法简单通用,适用于连续和离散的 action,并且可以在标准监督学习方法的基础上,通过几行代码实现。
- 我们为 AWR 提供了理论动机,并在纳入来自 experience replay 的 off-policy data 时,分析了其特性。
- 实验:
- 在一套标准的 OpenAI Gym 基准测试任务上评估了 AWR,并表明,与许多成熟的最先进的 RL 算法相比,它实现了有竞争力的性能。
- 当从纯静态(static)数据集中学习时,AWR 能够获得比大多数 off-policy 算法更有效的策略,而无需额外的环境交互。
- 此外,我们还演示了我们的算法,用于挑战性的连续控制任务,其中具有高度复杂的模拟角色。(盲猜是 kitchen 之类(?))
open review
- (作者似乎放弃了 rebuttal)
- 缺点:
- novelty: proposed method 似乎是对现有 off-policy solver 的微小修改。
- 实验:结果不足以支持该论文的说法, AWR 在几项任务中似乎明显比 SAC 差。
- 理论:理论分析似乎与算法不匹配。
3 method: AWR
- 看不懂算法了,整点知乎博客:
- https://zhuanlan.zhihu.com/p/500001362
- (感觉这个博客讲的很好,别看笔者的博客了,看这篇博客去吧(bless))
- 好像 3.1 节是基本算法,3.2 节是 off-policy。
- off-policy:
- 最新策略 \(\pi_k\) 收集到的数据存储到缓冲区 D 中。对 V 函数进行拟合和策略改进时,采样策略为之前的策略 或者其他不同策略 共同组成的一个复合策略。
- 对每个策略 \(\pi_i\) ,使用权重 \(w_i\) ,定义一个复合策略 \(\mu\) 。
- 直接得到,策略 \(\pi\) 比 \(\mu\) 好的程度,\(\eta(\pi)=J(\pi)-J(\mu)=J(\pi)-\sum_{i=1}^k w_iJ(\pi_i)\) \(=\sum_{i=1}^kw_i(J(\pi)-J(\mu))=\sum_{i=1}^kw_i\big(E_{s\sim d_\pi(s),a\sim\pi(a|s)}[A^{\pi_i}(s,a)]\big)\) 。
- 然后就 arg max \(\pi\) ,β 乘 一个 KL 散度,似乎是希望 \(\pi~\mu\) 尽可能接近;还有一个 α 的 Lagrange 乘子,不知道是什么。
- 理论:见公式 7 - 10。(反正笔者是一点理论也看不懂(哭))
off-policy RL | Advantage-Weighted Regression (AWR):组合先前策略得到新 base policy的更多相关文章
- Locally Weighted Regression
简单回顾一下线性回归.我们使用了如下变量:\(x\)—输入变量/特征:\(y\)—目标变量:\((x,y)\)—单个训练样本:\(m\)—训练集中的样本数目:\(n\)—特征维度:\((x^{(i)} ...
- Robust Locally Weighted Regression 鲁棒局部加权回归 -R实现
鲁棒局部加权回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 算法参考文献: (1) Robust L ...
- Locally weighted regression algorithm
在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型.的确如此,在普通的linear ...
- Locally weighted regression algorithm
之前所讨论的梯度下降算法,其算法模型是“线性回归模型”,我们可以理解为变量与因变量之间的关系是线性的.而现实情况是,使用线性模型去描述所有数据,很容易出现欠拟合(underfitting)的情况:同样 ...
- 策略模式 Strategy 政策Policy 行为型 设计模式(二十五)
策略模式 Strategy 与策略相关的常见词汇有:营销策略.折扣策略.教学策略.记忆策略.学习策略.... “策略”意味着分情况讨论,而不是一概而论 面对不同年龄段的人,面对不同的商品,必然将会 ...
- 深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods)
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
- locally weighted regression - CS229
欠拟合和过拟合 看下方的三张图 第一幅拟合为了 y=θ0+θ1xy=θ0+θ1x 的一次函数 第二幅拟合为了y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 的二次函数 第三幅拟合为了 y=∑5j ...
- 【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...
- HANA SQL
约束 注释 你可以给你的 SQL 语句添加注释来增加可读性和可维护性. SQL 语句中注释的分隔如下: l 双连字符“--”.所有在双连字符之后直到行尾的内容都被 SQL 解析器认为是注释. l ...
- mysql查看和修改密码策略
8.X版本: #查看密码策略 show variables like '%validate_password.policy%'; show variables like '%validate_pass ...
随机推荐
- 听懂未来:AI语音识别技术的进步与实战
本文全面探索了语音识别技术,从其历史起源.关键技术发展到广泛的实际应用案例,揭示了这一领域的快速进步和深远影响.文章深入分析了语音识别在日常生活及各行业中的变革作用,展望了其未来发展趋势. 关注Tec ...
- 安装华企盾DSC防泄密软件造成CAD2012卡住怎么办?
将下图目录的.exe程序删除或者重命名
- JS的对象
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
- Codeforces Round 911 (Div. 2) 总结
第一次在赛场上敲莫反,还好最后调出来了! A 题意:你在Minecraft里挖了一些一格的坑(同一列),问你用几桶水可以填满它(可以造无限水). 解法:找大于 \(2\) 的连续段,有的话就是两桶,没 ...
- python异步编程之asyncio高阶API
asyncio 高阶API列表 asyncio中函数可以分为高阶函数和低阶函数.低阶函数用于调用事件循环.linux 套接字.信号等更底层的功能,高阶函数是屏蔽了更多底层细节的任务并发,任务执行函数. ...
- 【scikit-learn基础】--『监督学习』之 随机森林分类
随机森林分类算法是一种基于集成学习(ensemble learning)的机器学习算法,它的基本原理是通过对多个决策树的预测结果进行平均或投票,以产生最终的分类结果. 随机森林算法可用于回归和分类问题 ...
- C#中对比两个对象是否相等最佳实践,IEquatable和IEqualityComparer的差异
前言 IEquatable<T> IEqualityComparer<T> 后言 参考 前言 IEquatable<T> 和 IEqualityComparer&l ...
- C++设计模式——单例类
C++设计模式--单例类 本文假设有一个Manager管理类,探讨单例类懒汉/饿汉模式的实现,和单例类的多线程安全性,最后介绍Meyers Singleton写法. 懒汉模式 当第一次要用单例类的时候 ...
- 让当前元素的width或者height达到父元素的尺寸
double.infifinity 和double.maxFinite可以让当前元素的width或者height达到父元素的尺寸: 区别: 我想成为我的父母所允许的最大的(double.infinit ...
- SaaS 营销怎么做?几点思考
按大部分 SaaS 公司组织架构,梳理了这 4 大业务部门(产品.市场.销售.服务-客户成功)的职责和客户价值链条.如图: 根据客户价值体验地图,分为两块过程: 客户营销过程 客户成功过程 针对 Sa ...