offline RL | D4RL:最常用的 offline 数据集之一
- pdf:https://arxiv.org/pdf/2004.07219.pdf
- html:https://ar5iv.labs.arxiv.org/html/2004.07219
- GitHub:https://github.com/Farama-Foundation/D4RL
- 项目网站:https://sites.google.com/view/d4rl-anonymous/
- open review:https://openreview.net/forum?id=px0-N3_KjA (被 strong reject 了,感觉神秘)
- 相关博客:
数据集简介
- Gym-MoJoCo(感觉是最常用的):
- medium:使用 online SAC 训练到一半,然后使用该策略收集 1M 的样本;
- random:利用随机初始化的策略,收集 1M 的样本;
- medium-replay:训练到中等质量水平,整个 replay buffer 收集的数据;
- medium-expert:等量混合专家数据集和次优数据集,次优数据通过次优策略或随机策略获得。
- Maze 系列:
- umaze / medium / large 是迷宫布局(迷宫形状与大小)。
- diverse 从随机起点到随机目标,play 起点和终点在一组固定点中随机选择。
- Adroit:
- 24 Dof 的灵巧手,非常困难。
- human:来自人类的少量 demo 数据(每个任务 25 个轨迹)。
- expert:使用训练良好的 RL 策略,生成大量数据。
- clone:通过在人类 demo 上训练模仿策略,运行策略,并以 1-1 的比例与人类 demo 数据混合。
- Franka Kitchen:
- 在包含几种常见家居用品(微波炉、水壶、顶灯、橱柜、烤箱)的厨房环境中,控制 9-DoF Franka 机器人。环境中具有多个任务,需要与不同的物品进行交互,以达成不同的任务目标。
- 难点(?):需要对 unseen state 泛化,而非完全依赖于 seen trajectory。貌似需要把 从先前任务中学到的 小段轨迹 拼接起来。
- complete:agent 按顺序执行所有所需任务,适用于 imitation learning。
- partial:agent 在做有意义的动作,但并不一定完成任务。partial 数据集的一个子集可以保证解决任务,这意味着,模仿学习 agent 可以通过有选择地选择正确的数据子集,来达成任务的学习。
- mixed:agent 在做有意义的动作,但并不一定完成任务。mixed 数据集不包含完全解决任务的轨迹,agent 必须学会组装相关的子轨迹。mixed 数据集需要最高程度的泛化才能成功。
- Flow 和 Carla,暂时不关注。

offline RL | D4RL:最常用的 offline 数据集之一的更多相关文章
- 常用machine learning数据集
ImageNet:非商业化的可视化大数据 截止到2015年5月1日,ImageNet数据库拥有超过1500万的图像. cifar10:10类物体识别数据集 数据集中包含60,000幅32*32图像,共 ...
- 测试Oracle 11gr2 RAC 非归档模式下,offline drop数据文件后的数据库的停止与启动测试全过程
测试Oracle 11gr2 RAC 非归档模式下,offline drop数据文件后的数据库的停止与启动测试全过程 最近系统出现问题,由于数据库产生的日志量太大无法开启归档模式,导致offline的 ...
- Oracle 11g RAC oc4j/gsd Offline
Oracle 11g RAC中,发现oc4j以及gsd服务都处于offline状态,这是Oracle 11g RAC默认情形.即便如此,并不影响数据库的使用,因为 oc4j 是用于WLM 的一个资源, ...
- Ubuntu package offline install
apt-get Use apt-get with the "--print-uris" option to do it. I also add "-qq" so ...
- 关于alter database datafile offline和alter database datafile offline drop 的区别
转: https://blog.csdn.net/killvoon/article/details/46913183 -----------------------2015-07-16-------- ...
- Mercedes offline programming/coding tips and guides
Mercedes offline programming/coding recommendations and guides: Offline coding: SCN or CVN coding wa ...
- HDLM命令dlnkmgr详解之四_monitor/offline/online
1. monitor 以一定的时间间隔监控hba或cha口的IO信息. 命令格式 监控hba口的IO信息: dlnkmgr monitor -hbaid HBA_ID [-intvl Interval ...
- Oracle DBA常用SQL
监控SQL 1.监控事例的等待: select event,sum(decode(wait_time,0,0,1)) prev, sum(decode(wait_time,0,1,0)) curr,c ...
- 2.sklearn库中的标准数据集与基本功能
sklearn库中的标准数据集与基本功能 下面我们详细介绍几个有代表性的数据集: 当然同学们也可以用sklearn机器学习函数来挖掘这些数据,看看可不可以捕捉到一些有趣的想象或者是发现: 波士顿房价数 ...
- [转]最好用的 AI 开源数据集 Top 39:NLP、语音等 6 大类
原文链接 本文修正部分错误. 以下是精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集. 标签解释 [经典]这些是在 AI 领域中非常著名.众所周知的数据集.很少有研究者或工程师没有 ...
随机推荐
- 5.10 Windows驱动开发:摘除InlineHook内核钩子
在笔者上一篇文章<内核层InlineHook挂钩函数>中介绍了通过替换函数头部代码的方式实现Hook挂钩,对于ARK工具来说实现扫描与摘除InlineHook钩子也是最基本的功能,此类功能 ...
- C++ 通过SQLite实现命令行工具
本文介绍了一个基于 C++.SQLite 和 Boost 库的简单交互式数据库操作 Shell.该 Shell 允许用户通过命令行输入执行各种数据库操作,包括添加.删除主机信息,设置主机到特定主机组, ...
- vue-cropper 移动端上传图片压缩裁剪
头像裁剪压缩上传流程: 点击头像--判断是否为IOS端--若是--A,否则--BA:选择图片 --CB:弹框供用户选择从相册选择或者调用相机拍照--选择图片--CC:出现cropper裁剪框,裁剪框位 ...
- STM32CubeMX教程31 USB_DEVICE - HID外设_模拟键盘或鼠标
1.准备材料 正点原子stm32f407探索者开发板V2.4 STM32CubeMX软件(Version 6.10.0) keil µVision5 IDE(MDK-Arm) ST-LINK/V2驱动 ...
- 使用OpenCV实现视频去抖
使用OpenCV实现视频去抖 整体步骤: 设置输入输出视频 寻找帧之间的移动:使用opencv的特征检测器,检测前一帧的特征,并使用Lucas-Kanade光流算法在下一帧跟踪这些特征,根据两组点,将 ...
- 零基础入门Vue之画龙点睛——再探监测数据
追忆 上一节:零基础入门Vue之影分身之术--列表渲染&渲染原理浅析 虽然我深知,大佬告诉我"先学应用层在了解底层,以应用层去理解底层",但Vue的数据如何检测的我不得不去 ...
- Delphi中 调试 指针
p1.Free; 释放堆中数据,最终无内存泄漏,只是加深记忆: 有些时候 灵活应对:
- NC24949 [USACO 2008 Jan S]Running
题目链接 题目 题目描述 The cows are trying to become better athletes, so Bessie is running on a track for exac ...
- OCR 01: EasyOCR
Catalog OCR 01: EasyOCR OCR 02: Tesseract-OCR OCR 03: PaddleOCR Related Links Official site with onl ...
- Java集合框架学习(八) HashMap详解
HashMap介绍 HashMap是一个基于Map的集合类,用于存储Key和Value的键值对. 通常用HashMap<Key, Value> or HashMap<K, V> ...