• ICLR 2020,6 6 6。
  • 材料:
  • 总结:
    • 是 2020 年的 offline RL 算法。

    • 算法框架:Policy Iteration,即先搞出一个 policy,再算 policy 的 Q function,再 a = argmax Q(s,a) 搞出新 policy,再算 policy 的 Q function,…
      • ① 在 policy evaluation 时,使用 offline dataset 里的 transition 来更新。
      • ② 在 policy improvement 时,maximize Q(s, \(\pi\)(s)) ,同时约束 \(\pi\) 与一个 prior policy 的 KL 散度,这是为了不要与 in-distribution 的 state-action 离太远,离得越远,Q 的 over-estimate 越严重。
    • 核心 idea 是 prior policy 如何得到。在先前的 BCQ 和 BEAR-QL 中,直接去学 offline dataset 的总的 policy,maximize Σ_{offline dataset} log(a|s)。
    • 这篇文章的核心 trick 叫做 ABM(Advantage-weighted Behavior Model)。
      • 在从 offline dataset 里提取 policy 的过程中,对 log(a|s) 进行一个基于 advantage 的加权。对 (s0, a0) 的 advantage = Q - V = Return(s0,a0,s1,...,sn,V(sn)) - V(s0) 。
      • 若 advantage ≥ 0,则 加权 = 1,否则加权 = 0。即,只在具有正 advantage 的环境转变的“好”数据上拟合模型。(这个加权函数还尝试了 exp 之类,但效果差异不大)。
  • 思考:
    • advantage weighted 的思想,感觉好像 performance 非常好…
    • offline RL 有两种主要思想,一种是 Q update 时拉低 OOD 的 Q value(CQL PBRL),或在 policy update 添加不要离 behavior policy 太远的正则项(TD3+BC),另一种是对 offline dataset 的 policy 进行 advantage-weighted(AWR)。IQL 是一股清流,用 (s,a,r,s',a') 来做 Q update。

0 abstract

  • background:

    • off-policy RL 适用于只有固定数据集(batch)且无法获得新 experience 的 setting,对机器人控制等现实世界的问题很有吸引力。然而在实践中,标准的 off-policy RL 在 continuous control 的 batch 设置中失败。
  • method:
    • 在本文中,我们提出了简单解决方案:承认使用任意 behavior policy 生成的数据,并使用学习的先验(优势加权行为模型 (ABM))将 RL 策略偏向于先前已执行并可能在新任务上取得成功的操作。我们的方法可以看作是最近 batch RL(offline RL)工作的扩展,可以从冲突的数据源中稳定地学习。
  • results:
    • 在各种 RL 任务中,performance 比起强 baseline 都有所改进,包括在标准的 continuous control benchmark 以及 simulation 和真机的 multi-task learning。

1 intro

  • Stay close to the relevant data:① 学习一个先验,哪些候选策略可能得到数据支持(同时确保先验 focus on 相关轨迹),② 进行 policy improvement,stay close to the learned prior policy。
  • 提出了一种 policy iteration 算法,学习先验,建立 behavior data 的优势加权模型,使 RL 策略偏向于以前经历过的、并且在当前任务中也很可能成功的 action。
  • 我们还发现,利用适当的先验足以稳定学习;证明当使用 policy iteration 算法时, policy evaluation 步骤是 implicitly stabilized 的 —— 只要忠实评估 TD-error 式 update 的值函数。这导致了比以前的工作更简单的算法(Fujimoto 等人,2018;Kumar 等人,2019 年)。
  • advantage-weighted behavior model(ABM)。

3 method

A learned prior for offline off-policy RL from imperfect data - 从不完美数据中学习 offline RL 的先验。

使用策略迭代(policy iteration)框架,在 policy improvement 步骤中有约束(参见 appendix A 的 Algorithm 1)。

  • 首先,从迭代 i 中的给定策略 \(\pi_i\) 开始,去找一个近似的 action-value 函数 \(Q^{\pi_i}(s,a)\) 。
  • 然后,使用 \(\hat Q^{\pi_i}\) 来优化 \(\pi_{i+1}\) ,同时约束 确保接近 empirical state-action distribution。

notation:D_μ 是 offline dataset,θ 是 policy 的参数,φ 是 Q function 的参数。

3.1 Policy Evaluation

  • 同时学 value function 和 Q function。
  • \(\arg\min \big[ r(s_t,a_t) + γ\hat V(s_{t+1})-\hat Q_{new}(s_t,a_t)\big]^2\) ,其中 V hat 为前一个 Q hat (s, \(\pi\)(s)) 。(公式 1)

3.2 Prior Learning and Policy Improvement

  • 把 policy learning 当作约束优化问题:maximize Q hat(s, \(\pi\)(s)),同时约束 policy 与 prior policy 的 KL 散度<ε。(公式 2)
  • 考虑两种算法来得到 prior policy:
    • 类似于 BCQ 和 BEAR-QL 的方法:直接 argmax Σ log(a | s) ,这里面的 s a 来自于 offline dataset。(公式 3)
    • weighted advantage 方法:argmax Σ log(a | s) f(Return - V hat) 。(公式 4)
      • Return 用 \(Σγ^{N-i} r(s,a) + γ^{N-t}\hat V\) 来算,f 是一个递增的非负函数。
      • 这里采用 f(x) = 1 if x≥0 else 0。还尝试了 f(x) = exp x 之类,但实验结果差不多。
      • 只在“好”数据上拟合模型(即具有正 advantage 的环境转变, 其中 advantage 是使用当前策略估计的)
  • (如果 offline dataset 质量足够高,可以直接在 dataset 里学 \(\pi_{abm}\) 和 Q abm ,作为输出策略:用 \(\pi_{abm}\) 计算 advantage,然后用 advantage-weight 计算新的 Q abm)
  • 如何优化公式 2 | EM-style optimization:(两步方法)
    • 首先,公式 2 的 \(\arg\max\pi\) 最优解可以写为, \(\hat \pi(a|s)\propto \pi_{prior}(a|s)\exp(\hat Q^{\pi_i}\big(s,a\big)/\eta)\) ,其中 η 可用凸优化确定。没有听懂,非常神秘……
    • 然后,去用 \(\pi_{prior}\) 来查询 \(\hat Q^{\pi_i}\) 的值,等价于 maximize 一个 weighted log likelihood,用梯度下降 + 约束 KL 散度(trust-region constraint)来实现。(没懂)
  • 如何优化公式 2 | Stochastic value gradient optimization:
    • 把 KL 散度的约束用 Lagrange 松弛塞到目标函数里。
  • 算法流程:

5 experiment

实验环境:DeepMind control suite,(multi-task setting)Mujoco 的 Sawyer robot arm(以及对应的真机)。

offline RL | ABM:从 offline dataset 的好 transition 提取 prior policy的更多相关文章

  1. gradle 离线模式offline 用法

    1. 离线模式 offline所谓离线模式offline,就是gradle在解析依赖的时候采用本地的依赖库(如 GRADLE_USER_HOME指定的路径),而不是依据项目build.gradle文件 ...

  2. windows服务器添加磁盘后,提示The disk is offline because of policy set by an administrator的解决办法

    操作系统:Windows Server 2008 R2 Enterprise 事件:存储在虚拟机上添加三块磁盘,笔者准备扩展到E盘(动态分区) 问题:存储团队添加磁盘后,OS的磁盘管理界面,看到提示, ...

  3. 【强化学习RL】model-free的prediction和control —— MC,TD(λ),SARSA,Q-learning等

    本系列强化学习内容来源自对David Silver课程的学习 课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 本文介绍了在m ...

  4. iBatis.Net实现返回DataTable和DataSet对象

    如题.要返回一个ADO.NET对象好像没有使用ORM的必要,而且从编程的角度看这样的实现一点也不OO,但是实际的开发场景中还是会碰到这种需求的.下面我就借鉴前人的经验,结合实际的示例,再总结一下.如果 ...

  5. Bayesian RL and PGMRL

    简介: PGMRL: PGMRL就是把RL问题建模成一个概率图模型,如下图所示: 然后通过variational inference的方法进行学习: PGMRL给RL问题的表示给了一个范例,对解决很多 ...

  6. 高速掌握sinox2014激动人心的ZFS和RAID技术

    Sinox2014引入激动人心的zfs系统以及其支持的RAID,让用户高速打造便宜的高可靠性文件server. ZFS文件系统的英文名称为Zettabyte File System,也叫动态文件系统( ...

  7. [DQN] What is Deep Reinforcement Learning

    已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...

  8. 【集成学习】lightgbm使用案例

    github地址 #!/usr/bin/env python2 # -*- coding: utf-8 -*- """ Created on Sat Mar 31 21: ...

  9. 【集成学习】lightgbm调参案例

    lightgbm使用leaf_wise tree生长策略,leaf_wise_tree的优点是收敛速度快,缺点是容易过拟合. # lightgbm关键参数 # lightgbm调参方法cv 代码git ...

  10. DOS命令行(4)——Windows系统的配置与管理(上)

    sfc --运行系统文件检查器(需要以管理员身份运行命令提示符) 命令格式:SFC [/SCANNOW] [/VERIFYONLY] [/SCANFILE=<file>] [/VERIFY ...

随机推荐

  1. 关于yolov3在训练自己数据集时容易出现的bug集合,以及解决方法

    早先写了一篇关于yolov3训练自己数据集的博文Pytorch实现YOLOv3训练自己的数据集 其中很详细的介绍了如何的训练自定义的数据集合,同时呢笔者也将一些容易出现的bug写在了博文中,想着的是可 ...

  2. Mongodb数据增删改查

    RDB:数据库 → 表(列) → 行 Mongo:数据库 → 集合 → 文档 SQL和Mongodb的关系映射表(里面还有一些增删改查等等操作与SQL的对应的语句): https://www.mong ...

  3. mv 用法

    ls #查看目录下所有文件 mkdir 11 #创建11文件夹 mv * 11/ #把所有文件移动到11文件夹下 cd 11 #进入11文件夹 ls #查看文件夹里的内容 mv * ../ #把11文 ...

  4. linux文件和文件夹的筛选、查找及用户和组管理命令

    1.列出当前系统上所有已经登陆的用户的用户名, 注意:同一个用户登录多次,则只显示一次即可. 查看系统用户的命令为: (1)getent passwd 查看系统上的所有用户信息 (2)w 查看登录用户 ...

  5. 跑AI大模型的K8s与普通K8s有什么不同?

    本文分享自华为云社区<跑AI大模型的K8s与普通K8s有什么不同?>,作者:tsjsdbd. 得益于AI开始火的时候,云原生体系已经普及,所以当前绝大多数的AI底层都是基于Kubernet ...

  6. 聊聊游戏业务怎么用高斯Redis

    摘要:其实游戏客户对数据库的诉求是很明确的,数据库应当"放心存放心用". 本文分享自华为云社区<华为云GaussDB(for Redis)揭秘第27期:聊聊游戏业务怎么用高斯 ...

  7. 带你梳理Roach全量恢复的整体流程

    摘要:本文将梳理Roach全量恢复的整体流程,描述Roach集群全量备份场景的运转机制. 数据备份恢复是保护数据安全的重要手段之一.Roach工具支持多种备份恢复类型,例如集群级的物理备份,表级备份的 ...

  8. Prometheus搭乘华为云GaussDB(for Influx):让监控数据更安全

    摘要:GaussDB(for Influx)是一款分布式架构,云原生的时序数据库.可无缝被Prometheus集成,在协议上原生支持Prometheus远端存储对接至GaussDB(for Influ ...

  9. 百度高德地图JS-API学习手记:地图基本设置与省市区数据加载

    无论是百度还是高德地图开发,还是高德地图开发.官方的给的案例启示很多,copy再修改下,就完成了 https://lbs.amap.com/api/javascript-api/summary  ht ...

  10. 火山引擎DataLeap的Data Catalog系统公有云实践

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 Data Catalog是一种元数据管理的服务,会收集技术元数据,并在其基础上提供更丰富的业务上下文与语义,通常支 ...