offline RL | D4RL：最常用的 offline 数据集之一

pdf：https://arxiv.org/pdf/2004.07219.pdf
html：https://ar5iv.labs.arxiv.org/html/2004.07219
GitHub：https://github.com/Farama-Foundation/D4RL
项目网站：https://sites.google.com/view/d4rl-anonymous/
open review：https://openreview.net/forum?id=px0-N3_KjA （被 strong reject 了，感觉神秘）
相关博客：
- 知乎 | D4RL: DATASETS FOR DEEP DATA-DRIVEN REINFORCEMENT LEARNING
- 知乎 | 离线强化学习 (Offline RL) 系列 2：(环境篇) D4RL 数据集简介、安装及错误解决

数据集简介

Gym-MoJoCo（感觉是最常用的）：
- medium：使用 online SAC 训练到一半，然后使用该策略收集 1M 的样本；
- random：利用随机初始化的策略，收集 1M 的样本；
- medium-replay：训练到中等质量水平，整个 replay buffer 收集的数据；
- medium-expert：等量混合专家数据集和次优数据集，次优数据通过次优策略或随机策略获得。
Maze 系列：
- umaze / medium / large 是迷宫布局（迷宫形状与大小）。
- diverse 从随机起点到随机目标，play 起点和终点在一组固定点中随机选择。
Adroit：
- 24 Dof 的灵巧手，非常困难。
- human：来自人类的少量 demo 数据（每个任务 25 个轨迹）。
- expert：使用训练良好的 RL 策略，生成大量数据。
- clone：通过在人类 demo 上训练模仿策略，运行策略，并以 1-1 的比例与人类 demo 数据混合。
Franka Kitchen：
- 在包含几种常见家居用品（微波炉、水壶、顶灯、橱柜、烤箱）的厨房环境中，控制 9-DoF Franka 机器人。环境中具有多个任务，需要与不同的物品进行交互，以达成不同的任务目标。
- 难点（？）：需要对 unseen state 泛化，而非完全依赖于 seen trajectory。貌似需要把从先前任务中学到的小段轨迹拼接起来。
- complete：agent 按顺序执行所有所需任务，适用于 imitation learning。
- partial：agent 在做有意义的动作，但并不一定完成任务。partial 数据集的一个子集可以保证解决任务，这意味着，模仿学习 agent 可以通过有选择地选择正确的数据子集，来达成任务的学习。
- mixed：agent 在做有意义的动作，但并不一定完成任务。mixed 数据集不包含完全解决任务的轨迹，agent 必须学会组装相关的子轨迹。mixed 数据集需要最高程度的泛化才能成功。
Flow 和 Carla，暂时不关注。

offline RL | D4RL：最常用的 offline 数据集之一的更多相关文章

常用machine learning数据集
ImageNet:非商业化的可视化大数据截止到2015年5月1日,ImageNet数据库拥有超过1500万的图像. cifar10:10类物体识别数据集数据集中包含60,000幅32*32图像,共 ...
测试Oracle 11gr2 RAC 非归档模式下，offline drop数据文件后的数据库的停止与启动测试全过程
测试Oracle 11gr2 RAC 非归档模式下,offline drop数据文件后的数据库的停止与启动测试全过程最近系统出现问题,由于数据库产生的日志量太大无法开启归档模式,导致offline的 ...
Oracle 11g RAC oc4j/gsd Offline
Oracle 11g RAC中,发现oc4j以及gsd服务都处于offline状态,这是Oracle 11g RAC默认情形.即便如此,并不影响数据库的使用,因为 oc4j 是用于WLM 的一个资源, ...
Ubuntu package offline install
apt-get Use apt-get with the "--print-uris" option to do it. I also add "-qq" so ...
关于alter database datafile offline和alter database datafile offline drop 的区别
转: https://blog.csdn.net/killvoon/article/details/46913183 -----------------------2015-07-16-------- ...
Mercedes offline programming/coding tips and guides
Mercedes offline programming/coding recommendations and guides: Offline coding: SCN or CVN coding wa ...
HDLM命令dlnkmgr详解之四_monitor/offline/online
1. monitor 以一定的时间间隔监控hba或cha口的IO信息. 命令格式监控hba口的IO信息: dlnkmgr monitor -hbaid HBA_ID [-intvl Interval ...
Oracle DBA常用SQL
监控SQL 1.监控事例的等待: select event,sum(decode(wait_time,0,0,1)) prev, sum(decode(wait_time,0,1,0)) curr,c ...
2.sklearn库中的标准数据集与基本功能
sklearn库中的标准数据集与基本功能下面我们详细介绍几个有代表性的数据集: 当然同学们也可以用sklearn机器学习函数来挖掘这些数据,看看可不可以捕捉到一些有趣的想象或者是发现: 波士顿房价数 ...
[转]最好用的 AI 开源数据集 Top 39：NLP、语音等 6 大类
原文链接本文修正部分错误. 以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集. 标签解释 [经典]这些是在 AI 领域中非常著名.众所周知的数据集.很少有研究者或工程师没有 ...

随机推荐

报错ValueError: Can't find 'adapter_config.json'
前言在做组内2030项目时,我具体做的一个工作是对大模型进行LoRA微调,在整个过程中有许多坑,其中有些值得记录的问题,于是便产生了这篇博客. 问题我在得到微调好的模型后,需要对模型进行性能测评. ...
React框架运行机制
React框架运行主流程 1.JSX是JS语言的扩展,被babel编译后,会转换成React.creatElement(),这个方法返回的是一个虚拟DOM. 2.将虚拟DOM渲染到真实DOM的方法是R ...
使用DoraCloud搭建支持统信UOS桌面的信创云桌面系统
信创云桌面信创云桌面采用国产的芯片,支持国产的桌面操作系统.本方案采用海光CPU的服务器,运行DoraCloud云桌面系统.可以支持统信UOS桌面系统和麒麟桌面操作系统. 环境准备服务器:海光 5 ...
(C语言)||2023.12.24||关于strcpy(&a[1],a)
strcpy 要求传入的两个指针 restrict(即区间不重叠). 因此直接 strcpy(&a[1],a) 是未定义行为.
深入浅出 Application Insights--学习笔记
摘要介绍如何将 Application Insights 用于生产上实践,并透过它发现/诊断问题.同时也会介绍如何将 Application Insighs 与其他体系相集成实现 Devops(与发 ...
Python-pymysql如何向SQL语句中传参
方法一:不传递参数 ## 方式一.不传递参数 id = "01" name = "语文" sql = "select * from course wh ...
扯淡的DevOps，我们开发根本不想做运维！
引言最初考虑引用" DevOps 已死,平台工程才是未来"作为标题,但这样的表达可能太过于绝对.最终,决定用了"扯淡的"这个词来描述 DevOps,但这并不是 ...
[WPF] MediaElement播放HDR视频泛黄、颜色显示不正确应该如何解决？
当我们在使用MediaElement控件播放HDR视频时会遇到颜色发灰.泛黄的情况,难道是因为控件做的有问题? 其实并不是程序问题,只是我们普通的应用程序工作在8bit色深的环境中,而HDR色深为10 ...
Vdbench 使用说明
一. vdbench简介 vdbench是一个 I/O 工作负载生成器,用于验证数据完整性和度量直接附加和网络连接的存储的性能.它是一个免费的工具,容易使用,而且常常用于测试和基准测试. 可以使用vd ...
SATA学习笔记——Link Layer 加扰/解扰/CRC
一.故事前传我们之前说到Link layer的结构,link layer的作用大致可以包括以下几点: Frame flow control CRC的生成与检测对数据与控制字符的Scrmable/D ...

offline RL | D4RL：最常用的 offline 数据集之一

数据集简介

offline RL | D4RL：最常用的 offline 数据集之一的更多相关文章

随机推荐

热门专题