0 abstract

Preference-based reinforcement learning (PbRL) provides a natural way to align RL agents’ behavior with human desired outcomes, but is often restrained by costly human feedback. To improve feedback efficiency, most existing PbRL methods focus on selecting queries to maximally improve the overall quality of the reward model, but counter-intuitively, we find that this may not necessarily lead to improved performance. To unravel this mystery, we identify a long-neglected issue in the query selection schemes of existing PbRL studies: Query-Policy Misalignment. We show that the seemingly informative queries selected to improve the overall quality of reward model actually may not align with RL agents’ interests, thus offering little help on policy learning and eventually resulting in poor feedback efficiency. We show that this issue can be effectively addressed via near on-policy query and a specially designed hybrid experience replay, which together enforce the bidirectional query-policy alignment. Simple yet elegant, our method can be easily incorporated into existing approaches by changing only a few lines of code. We showcase in comprehensive experiments that our method achieves substantial gains in both human feedback and RL sample efficiency, demonstrating the importance of addressing query-policy misalignment in PbRL tasks.

  • background: PbRL 提供了一种自然的方法,使 RL agent 的行为与人类期望一致,但 human feedback 通常 expensive。为了提高 feedback-efficiency,现有的大多数 PbRL 方法,都侧重于 query selection 的优化,希望选择 reward model 质量提升的 queries,但与直觉相反,我们发现,这不一定会导致性能提高。
  • 问题:为了解开这个谜团,我们在现有 PbRL 工作的 query selection 方案中,发现了一个长期被忽视的问题:query 与 policy 的 misalignment。我们发现,选择的看似 informative 的 query,实际上可能与 RL agent 的兴趣不一致,因此对 policy learning 几乎没有帮助,最终导致 feedback-efficiency 低下。
  • method:我们表明,这个问题可以通过 ① near on-policy query + ② 专门设计的 hybrid experience replay 来有效解决,它们共同强制 query-policy 的 alignment。简单而优雅,只需更改几行代码,该技术即可轻松合并到现有方法中。
  • result:实验表明,我们的方法在 human feedback-efficiency 和 RL sample-efficiency 方面,都取得了实质性的收益,这证明,解决 PbRL 任务中 query-policy misalignment 的问题,具有重要性。

4 query-policy misalignment & 5 query-policy alignment (QPA)

query-policy misalignment:

  • a motivating example:在一个 agent 从坐标 (0,0) 跑到 (10,10) 的环境中,发现基于 disagreement 选取的 queries,都跟当前策略真正会访问的 state-action 分布不太一样。
  • 相当于,teacher 提供了一些情况下的 preference,但 policy 根本不会遇到这些情况;reward function 可能全局上更好了,但对于 policy learning 没什么贡献。(感觉像我导会说的话,world model 更好了,但控制真的需要这么好的 world model 嘛,world model 更好会直接让控制更好嘛,之类的话)

near on-policy query selection:

  • 直译:几乎 on-policy 的 query selection。
  • 直接把当前 policy 最新生产的 trajectory,拿去当 queried segments。
  • 作者声称很好实现,把存储 query selection 的 replay buffer 的 size 改小即可,这样 replay buffer 里就只能存下最新生产的 trajectory 了。

关键技术:

  • ① near on-policy query selection,就像前面说的那样。
  • ② hybrid experience replay。
    • 在学 Q function 的时候,对于(比如说)DQN ,因为是 off-policy 算法,所以一般会随机采样一些 transition,来最小化 TD-error、更新 Q function。
    • 这里提出了新的采样策略:一半数据直接从 near on-policy 的 replay buffer 里面采样,另一半则均匀随机 uniform 采样。
    • 作者声称,这样可以实现 1. 提高 Q learning 效率、2. 让 Q function 不至于落入局部最优 的权衡。

理论 insight:

  • 若 \(\|\hat r_\psi-r\|_{d^\pi}\le\epsilon\) 、 \(\|Q^\pi_{\hat r_\psi}-\hat Q^\pi_{\hat r_\psi}\|_{d^\pi}\le\alpha\) ,则有 upper bound \(\|Q_r^\pi-\hat Q^\pi_{\hat r_\psi}\|_{d^{\pi}} \le\frac{\epsilon}{1-\gamma}+\alpha\) 。
  • hat r_ψ :学到的 reward model;r :ground truth reward;Q hat : Q-learning 学出来的 Q function;Q 真正的 Q value。
  • Q value 需要在同一 policy 的 state-action 分布下计算( \(d^\pi\) 下标)。理论 insight:希望分布 \(d^\pi\) 下的 reward model 与 ground truth reward 尽可能接近,因此要多在分布 \(d^\pi\) 下学 reward。

关键技术:

  • ③ 还使用了 reward learning 的 data augmentation(类似 这篇博客 4.2 节 记录的做法)。后面做了对 data augmentation 的 ablation。

(一个实验画图的细节: figure 6 中,黑色虚线表示最后一个 feedback 收集步骤)

RLHF · PbRL | QPA:选择 near on-policy query,加速 policy learning 收敛速度的更多相关文章

  1. 选择…Select…(Power Query 之 M 语言)

    选择行: 筛选Table.SelectRows-文本与数值 筛选Table.SelectRows-日期与时间 保留错误行:= Table.SelectRowsWithErrors( 表, {" ...

  2. Policy Improvement and Policy Iteration

    From the last post, we know how to evaluate a policy. But that's not enough, because the purpose of ...

  3. Provider Policy与Consumer Policy在bnd中的区别

    首先需要了解的是bnd的相关知识: 1. API(也就是接口), 2. API Provider(接口的实现) 3. API Consumer( 接口的使用者) OSGi中的一个版本有4个部分:    ...

  4. Jmeter之csv、用户自定义变量以及Query Type分析(八)

    很多童鞋不知道对于Jmeter的Query Type 不知道选哪个,为什么选,怎么选! 下面这边做个简单的分析, 那么首先什么是CSV Data Set Config,有什么用呢? CSV Data ...

  5. trait与policy模板技术

    trait与policy模板技术 我们知道,类有属性(即数据)和操作两个方面.同样模板也有自己的属性(特别是模板参数类型的一些具体特征,即trait)和算法策略(policy,即模板内部的操作逻辑). ...

  6. Network Policy - 每天5分钟玩转 Docker 容器技术(171)

    Network Policy 是 Kubernetes 的一种资源.Network Policy 通过 Label 选择 Pod,并指定其他 Pod 或外界如何与这些 Pod 通信. 默认情况下,所有 ...

  7. 1.4 配置备份策略(Policy)

    1.1 配置备份策略(Policy) 一个备份策略由四部分组成. Attributes(属性) Policy是否Active Policy类型 由此Policy产生的任务的优先级 使用的Storage ...

  8. 1.4 NBU配置备份策略(Policy)

    1.4 配置备份策略(Policy) 一个备份策略由四部分组成. Attributes(属性) Policy是否Active Policy类型 由此Policy产生的任务的优先级 使用的Storage ...

  9. 强化学习七 - Policy Gradient Methods

    一.前言 之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的ac ...

  10. Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C(3)

    在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们 ...

随机推荐

  1. 【UniApp】-uni-app-处理项目输入数据(苹果计算器)

    前言 上一篇文章完成了项目的基本布局,这一篇文章我们来处理一下项目的输入数据 项目的输入数据主要是通过按键来输入的,所以我们需要对按键进行处理 那么我们就来看一下 uni-app-处理项目输入数据 步 ...

  2. 【Python】【OpenCV】定位条形码(二)moments和HuMoments

    根据上一篇博客可知,单纯的通过求取最大面积而进行定位的局限性,因此我们接下来将通过cv2.moments()和cv2.HuMoments()这两个方法来在更复杂的环境中去找到我们的目标区域. cv2. ...

  3. 工具类图片转base64

    工具类图片转base64 import sun.misc.BASE64Encoder; import java.io.FileInputStream; import java.io.IOExcepti ...

  4. 如何清理Docker不用的Volume

    有一句老话叫:书到用时方恨少. 其实电脑的内存空间也是非常宝贵,特别是MacOS下的docker可以分配的空间更是寸土寸金. 在21年的时候我也遇到过类似的问题,当时的经历记录在这篇博客:https: ...

  5. 机器学习周刊03:如何学习深度学习?2024 年学习生成式 AI 路线图、如何构建高效的RAG系统、苹果 腾讯最新论文、阿里DreaMoving

    腾讯推出的 AppAgent,是一个多模态智能体,通过识别当前手机的界面和用户指令直接操作手机界面,能像真实用户一样操作手机! 机器学习周刊:关注Python.机器学习.深度学习.大模型等硬核技术 1 ...

  6. QT OpenGLWidget高分屏适配时出现的问题

    参考官方文档,为了解决4K屏幕显示QT界面时出现窗口变小分辨率不匹配的问题,我们可以在 QApplication a(argc, argv); 这句之前添加: #if (QT_VERSION > ...

  7. 云图说 | 华为云MCP多云容器平台,让您轻松灾备!

    摘要:多云容器平台是华为云基于多年容器云领域实践经验和社区先进的集群联邦技术,提供的容器多云和混合云的解决方案. 多云容器平台(Multi-Cloud Container Platform,MCP)是 ...

  8. PreSTU:一个专门为场景文本理解而设计的简单预训练模型

    摘要:在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的.我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢? 本文分享自华为云社区<场景文本理解预 ...

  9. 云图说 | 华为云医疗智能体智联大健康:AI医学影像

    摘要:华为云医疗智能体面向医学影像领域,提供影像智能标注.算法开发和AI辅助诊断服务. 本文分享自华为云社区<[云图说]第208期 医疗智能体 智联大健康:AI医学影像>,原文作者:阅识风 ...

  10. 快来一起玩转LiteOS组件:Curl

    摘要:Curl是一个文件传输工具,常用于数据上传和下载,本demo基于Cloud_STM32F429IGTx_FIRE开发板演示了在curl demo中调用curl提供的API来下载一个文件,并将其保 ...