offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy

ICLR 2020，6 6 6。
材料：
- 论文题目：Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning
- 项目网站：https://sites.google.com/view/behavior-modelling-priors
- pdf 版本：https://arxiv.org/pdf/2002.08396.pdf
- html 版本：https://ar5iv.labs.arxiv.org/html/2002.08396
- open review：https://openreview.net/forum?id=rke7geHtwH
总结：
- 是 2020 年的 offline RL 算法。
  - 一些 offline RL 编年史： BCQ 2019 ICLR，CQL 2020 NeurIPS，Advantage-Weighted Regression（AWR） 2020 2021 ICLR 连续被拒，TD3+BC 2021 NeurIPS，IQL 2022 ICLR，Pessimistic Bootstrapping（PBRL） 2022 ICLR。（链接是本站博客）
- 算法框架：Policy Iteration，即先搞出一个 policy，再算 policy 的 Q function，再 a = argmax Q(s,a) 搞出新 policy，再算 policy 的 Q function，…
  - ① 在 policy evaluation 时，使用 offline dataset 里的 transition 来更新。
  - ② 在 policy improvement 时，maximize Q(s, \(\pi\)(s)) ，同时约束 \(\pi\) 与一个 prior policy 的 KL 散度，这是为了不要与 in-distribution 的 state-action 离太远，离得越远，Q 的 over-estimate 越严重。
- 核心 idea 是 prior policy 如何得到。在先前的 BCQ 和 BEAR-QL 中，直接去学 offline dataset 的总的 policy，maximize Σ_{offline dataset} log(a|s)。
- 这篇文章的核心 trick 叫做 ABM（Advantage-weighted Behavior Model）。
  - 在从 offline dataset 里提取 policy 的过程中，对 log(a|s) 进行一个基于 advantage 的加权。对 (s0, a0) 的 advantage = Q - V = Return(s0,a0,s1,...,sn,V(sn)) - V(s0) 。
  - 若 advantage ≥ 0，则加权 = 1，否则加权 = 0。即，只在具有正 advantage 的环境转变的“好”数据上拟合模型。（这个加权函数还尝试了 exp 之类，但效果差异不大）。
思考：
- advantage weighted 的思想，感觉好像 performance 非常好…
- offline RL 有两种主要思想，一种是 Q update 时拉低 OOD 的 Q value（CQL PBRL），或在 policy update 添加不要离 behavior policy 太远的正则项（TD3+BC），另一种是对 offline dataset 的 policy 进行 advantage-weighted（AWR）。IQL 是一股清流，用 (s,a,r,s',a') 来做 Q update。

0 abstract

background：
- off-policy RL 适用于只有固定数据集（batch）且无法获得新 experience 的 setting，对机器人控制等现实世界的问题很有吸引力。然而在实践中，标准的 off-policy RL 在 continuous control 的 batch 设置中失败。
method：
- 在本文中，我们提出了简单解决方案：承认使用任意 behavior policy 生成的数据，并使用学习的先验（优势加权行为模型（ABM））将 RL 策略偏向于先前已执行并可能在新任务上取得成功的操作。我们的方法可以看作是最近 batch RL（offline RL）工作的扩展，可以从冲突的数据源中稳定地学习。
results：
- 在各种 RL 任务中，performance 比起强 baseline 都有所改进，包括在标准的 continuous control benchmark 以及 simulation 和真机的 multi-task learning。

1 intro

Stay close to the relevant data：① 学习一个先验，哪些候选策略可能得到数据支持（同时确保先验 focus on 相关轨迹），② 进行 policy improvement，stay close to the learned prior policy。
提出了一种 policy iteration 算法，学习先验，建立 behavior data 的优势加权模型，使 RL 策略偏向于以前经历过的、并且在当前任务中也很可能成功的 action。
我们还发现，利用适当的先验足以稳定学习；证明当使用 policy iteration 算法时， policy evaluation 步骤是 implicitly stabilized 的 —— 只要忠实评估 TD-error 式 update 的值函数。这导致了比以前的工作更简单的算法（Fujimoto 等人，2018；Kumar 等人，2019 年）。
advantage-weighted behavior model（ABM）。

3 method

A learned prior for offline off-policy RL from imperfect data - 从不完美数据中学习 offline RL 的先验。

使用策略迭代（policy iteration）框架，在 policy improvement 步骤中有约束（参见 appendix A 的 Algorithm 1）。

首先，从迭代 i 中的给定策略 \(\pi_i\) 开始，去找一个近似的 action-value 函数 \(Q^{\pi_i}(s,a)\) 。
然后，使用 \(\hat Q^{\pi_i}\) 来优化 \(\pi_{i+1}\) ，同时约束确保接近 empirical state-action distribution。

notation：D_μ 是 offline dataset，θ 是 policy 的参数，φ 是 Q function 的参数。

3.1 Policy Evaluation

同时学 value function 和 Q function。
\(\arg\min \big[ r(s_t,a_t) + γ\hat V(s_{t+1})-\hat Q_{new}(s_t,a_t)\big]^2\) ，其中 V hat 为前一个 Q hat (s, \(\pi\)(s)) 。（公式 1）

3.2 Prior Learning and Policy Improvement

把 policy learning 当作约束优化问题：maximize Q hat(s, \(\pi\)(s))，同时约束 policy 与 prior policy 的 KL 散度＜ε。（公式 2）
考虑两种算法来得到 prior policy：
- 类似于 BCQ 和 BEAR-QL 的方法：直接 argmax Σ log(a | s) ，这里面的 s a 来自于 offline dataset。（公式 3）
- weighted advantage 方法：argmax Σ log(a | s) f(Return - V hat) 。（公式 4）
  - Return 用 \(Σγ^{N-i} r(s,a) + γ^{N-t}\hat V\) 来算，f 是一个递增的非负函数。
  - 这里采用 f(x) = 1 if x≥0 else 0。还尝试了 f(x) = exp x 之类，但实验结果差不多。
  - 只在“好”数据上拟合模型（即具有正 advantage 的环境转变，其中 advantage 是使用当前策略估计的）
（如果 offline dataset 质量足够高，可以直接在 dataset 里学 \(\pi_{abm}\) 和 Q abm ，作为输出策略：用 \(\pi_{abm}\) 计算 advantage，然后用 advantage-weight 计算新的 Q abm）
如何优化公式 2 | EM-style optimization：（两步方法）
- 首先，公式 2 的 \(\arg\max\pi\) 最优解可以写为， \(\hat \pi(a|s)\propto \pi_{prior}(a|s)\exp(\hat Q^{\pi_i}\big(s,a\big)/\eta)\) ，其中 η 可用凸优化确定。没有听懂，非常神秘……
- 然后，去用 \(\pi_{prior}\) 来查询 \(\hat Q^{\pi_i}\) 的值，等价于 maximize 一个 weighted log likelihood，用梯度下降 + 约束 KL 散度（trust-region constraint）来实现。（没懂）
如何优化公式 2 | Stochastic value gradient optimization：
- 把 KL 散度的约束用 Lagrange 松弛塞到目标函数里。
算法流程：

5 experiment

实验环境：DeepMind control suite，（multi-task setting）Mujoco 的 Sawyer robot arm（以及对应的真机）。

offline RL | ABM：从 offline dataset 的好 transition 提取 prior policy的更多相关文章

gradle 离线模式offline 用法
1. 离线模式 offline所谓离线模式offline,就是gradle在解析依赖的时候采用本地的依赖库(如 GRADLE_USER_HOME指定的路径),而不是依据项目build.gradle文件 ...
windows服务器添加磁盘后，提示The disk is offline because of policy set by an administrator的解决办法
操作系统:Windows Server 2008 R2 Enterprise 事件:存储在虚拟机上添加三块磁盘,笔者准备扩展到E盘(动态分区) 问题:存储团队添加磁盘后,OS的磁盘管理界面,看到提示, ...
【强化学习RL】model-free的prediction和control —— MC，TD(λ)，SARSA，Q-learning等
本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 本文介绍了在m ...
iBatis.Net实现返回DataTable和DataSet对象
如题.要返回一个ADO.NET对象好像没有使用ORM的必要,而且从编程的角度看这样的实现一点也不OO,但是实际的开发场景中还是会碰到这种需求的.下面我就借鉴前人的经验,结合实际的示例,再总结一下.如果 ...
Bayesian RL and PGMRL
简介: PGMRL: PGMRL就是把RL问题建模成一个概率图模型,如下图所示: 然后通过variational inference的方法进行学习: PGMRL给RL问题的表示给了一个范例,对解决很多 ...
高速掌握sinox2014激动人心的ZFS和RAID技术
Sinox2014引入激动人心的zfs系统以及其支持的RAID,让用户高速打造便宜的高可靠性文件server. ZFS文件系统的英文名称为Zettabyte File System,也叫动态文件系统( ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
【集成学习】lightgbm使用案例
github地址 #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Sat Mar 31 21: ...
【集成学习】lightgbm调参案例
lightgbm使用leaf_wise tree生长策略,leaf_wise_tree的优点是收敛速度快,缺点是容易过拟合. # lightgbm关键参数 # lightgbm调参方法cv 代码git ...
DOS命令行（4）——Windows系统的配置与管理（上）
sfc --运行系统文件检查器(需要以管理员身份运行命令提示符) 命令格式:SFC [/SCANNOW] [/VERIFYONLY] [/SCANFILE=<file>] [/VERIFY ...

随机推荐

解密数据可视化软件、BI软件和数字孪生软件的不同
在现代企业和科技领域,数据起着至关重要的作用.为了更好地管理和理解数据,不同类型的软件工具应运而生,其中包括数据可视化软件.BI(Business Intelligence)软件和数字孪生软件.虽然它 ...
int和String的相互转换
关于windows激活程序的木马病毒分析及处置方法
客户电脑中毒,锁定几个病毒进程.EDR杀毒.木马专杀工具无法处置,该现象是和深信服外网AF防火墙联动后发现的行为,EDR无感知. 该病毒特征为,每日早上用户开机,均检查到外链du.testjj.com ...
gentoo安装gcc出现error: C compiler cannot create executables
安装程序 systemd 过程中,出现了error: C compiler cannot create executables 这类错误,经过检查,由于没有配置本地编译器的结果. 输入命令如下: g ...
NSSCTF Round#16 Basic crypto misc-wp
CRYPTO pr 题目 CRT from Crypto.Util.number import * import random flag=plaintext = 'NSSCTF{*********** ...
2023-05-30：Redis6.0为什么要引入多线程呢？
2023-05-30:Redis6.0为什么要引入多线程呢? 答案2023-05-30: Redis多线程比单线程性能提升一倍: Redis 6.0 引入多线程 IO 特性对性能提升至少是一倍以上.据 ...
AnimatedList 实现动态列表
AnimatedList实现动画 AnimatedList 和 ListView 的功能大体相似,不同的是, AnimatedList 可以在列表中插入或删除节点时执行一个动画,在需要添加或删除列 ...
MySQL篇：第六章_详解mysql视图
周末有朋友来上海没来得及更新,特此更两篇以正身视图含义:理解成一张虚拟的表视图和表的区别: 使用方式占用物理空间视图完全相同不占用,仅仅保存的是sql逻辑表完全相同占用视图的好处 ...
云图说｜交换数据空间Exchange Data Space
本文分享自华为云社区<云图说|交换数据空间Exchange Data Space>,作者: 阅识风云. 阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅 ...
vue2升级vue3： Event Bus 替代方案
在看 https://v3-migration.vuejs.org/breaking-changes/events-api.html 在vue2里面 In 2.x, a Vue instance co ...