RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）

参考：

官方链接：Gym documentation | Make your own custom environment
腾讯云 | OpenAI Gym 中级教程——环境定制与创建
知乎 | 如何在 Gym 中注册自定义环境？
g，写完了才发现自己曾经写过一篇：RL 基础 | 如何搭建自定义 gym 环境

（这篇博客适用于 gym 的接口，gymnasium 接口也差不多，只需详细看看接口定义魔改一下即可）

安装 openai gym：

# pip install gym

import gym

from gym import spaces

需实现两个主要功能：

env.__init__() 和 obs = env.reset() 函数；
obs, reward, done, info = env.step(action) 函数。

01 env 的初始化与 reset

env.__init__() 函数：

输入是 env 的一些初始化条件，比如环境的地图多大、环境里有多少个金币以及每个金币的位置。如果只训练一个特定的任务，比如在 3×3 地图中吃右上角的一个金币，则这些设置都可以写死，不需要在 env 初始化时传递参数。
在 env.__init__() 函数中，需要定义 self.observation_space 和 self.action_space 。
- 如果状态空间 / 动作空间是离散的，则使用 spaces.Discrete([space dim]) ；
- 如果是连续的，则使用 spaces.Box(low=np.array([0,1]), high=np.array([100,50]), dtype=np.float32) ，其中 low high 都要符合状态空间 / 动作空间的维度，分别代表每一维的最大最小值。
- 连续空间也可以使用 spaces.Box(low=0, high=255, shape=(84, 84), dtype=np.uint8) 这种形式，其中空间的每个维度具有相同的最大最小值，shape 表示空间的维度。
- gym.spaces 的具体使用：官方文档 Gym documentation | Spaces ，知乎 | Gym 中 Spaces 浅入浅出的理解。
可以在 env.__init__() 函数的最后调用一下 env.reset() 函数。

obs = env.reset() 函数：

作用是初始化环境，比如把 agent 放到地图左下角，金币放在地图右上角，内置的计步器 reset 到 0 之类。
它的返回值 obs，应该是一个与状态空间维度相同的 np.ndarray。

02 与环境交互的 step 函数

obs, reward, done, info = env.step(action) 函数：

输入 action，应该是一个与动作空间维度相同的 np.ndarray。（一般的环境应该不支持批量输入 action，即 action.shape = (batch_size, action_dim) ）
step 函数被用在 agent 与 env 的交互；env 接收到输入的动作 action 后，内部进行一些状态转移，输出：
- 新的状态 obs：与状态空间维度相同的 np.ndarray；
- reward：奖励值，实数；
- done：bool 值，True 代表这个 episode 已经跑完（比如 agent 吃到了金币，或 agent 已经走完了 1000 步）（此时该 reset 了），False 则代表这个 episode 还没跑完。
- info：python 的字典（dict），可以传递一些信息，没有信息传递则可以设成 {} 。

03 高级用法

env.__init__(render_mode="human" or "rgb_array") 以及 rgb_frame = env.render() 。render mode = human 好像可以使用 pygame，rgb frame 则是直接输出（比如说）shape = (256, 256, 3) 的 frame，可以用 imageio 保存成视频。
如何注册 gym 环境：RL 基础 | 如何注册自定义 gym 环境

RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）的更多相关文章

Windows+QT+Eclipse+MinGW搭建QT开发环境详细教程
Windows+QT+Eclipse+MinGW搭建QT开发环境详细教程一.准备工具: QT-SDK for Windows:http://get.qt.nokia.com/qtsdk/qt-sd ...
java 基础（一） Sublime Text3搭建Java编译环境（Windows系统）
1. 首先配置好Java环境变量我的jdk版本是1.8.0_191,存放目录是C:\Program Files\Java,因此添加以下环境变量 (1)系统变量→新建 JAVA_HOME 变量,变量值为 ...
eclipse搭建android开发环境详细步骤
搭建android应用的开发环境,一套程序下来也是相当繁琐的,这里我整理下一整套详细流程: 1,下载JDK 去oracle官网下载最新版本的jdk,官网地址 http://www.oracle.com ...
hexo+github搭建博客(超级详细版，精细入微)
# 前言你了解[Hexo]( https://hexo.io/zh-cn/ "Hexo官网")吗? Hexo是一个静态博客框架,基于Node.js,将Markdown文章通过渲染 ...
css基础之 font的简写规则以及自定义 CSS3 @font-face详细用法
Part 1 font简写 CSS的命名规则是用英文字母数字和下划线(一般用小写)来命名.简写css font的好处有三:一是写起来方便(就像键盘快捷键):二是简化代码:三是帮助你熟悉和深刻理解c ...
搭建Kafka运行环境-Mac版
停止kafka服务: kafka_2.12-0.10.2.1> bin/kafka-server-stop.sh kafka_2.12-0.10.2.1> bin/zookeeper-se ...
SpringMVC框架搭建流程（完整详细版）
SpringMVC框架搭建流程开发过程 1)配置DispatcherServlet前端控制器 2)开发处理具体业务逻辑的Handler(@Controller. @RequestMapping) 3 ...
Ubuntu下常用强化学习实验环境搭建(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2)
http://lib.csdn.net/article/aimachinelearning/68113 原文地址:http://blog.csdn.net/jinzhuojun/article/det ...
常用增强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) (转载)
原文地址:http://blog.csdn.net/jinzhuojun/article/details/77144590 和其它的机器学习方向一样,强化学习(Reinforcement Learni ...
1.WIN10下搭建vue开发环境
WIN10下搭建vue开发环境详细的安装步骤如下: 一.安装node.js 说明:安装node.js的windows版本后,会自动安装好node以及包管理工具npm,我们后续的安装将依赖npm工具. ...

随机推荐

Linux内核信号SIGIO使用实例讲解
一.信号 1. 基本概念信号是在软件层次上对中断机制的一种模拟,在原理上,一个进程收到一个信号与处理器收到一个中断请求可以说是一样的.信号是异步的,一个进程不必通过任何操作来等待信号的到达,事实上, ...
lamada 表达式
语法篇 -- $lamada$ 表达式函数内定义的函数,看起来能使代码更加美观. 具体定义方法: 前面挂个 auto ,不管他返不返回值后面是函数名(表达式名) 例: Cekas 先是中括号表 ...
Maven 设置 JDK 版本
Maven 设置 JDK 版本是通过 Apache Maven Compiler Plugin 插件实现的.它用于编译项目的源代码. 方法一有时候你可能需要将某个项目编译到与当前使用的 JDK 版本 ...
Linux 检查端口监听情况
使用 lsof $ sudo lsof -i :22 COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME sshd 963 root 3u IPv4 ...
OIDC – OpenIddict Core
3 选 1 IdentityServer 4 本来 IdentityServer 4 一直都是首选的, 但在 2020 年他们决定成立公司, IdentityServer 5 就开始收费了. The ...
ubuntu22.04安装DBeaver
要在 Ubuntu22.04 上安装 DBeaver,可以选择使用 Ubuntu 软件中心的图形界面方法或使用命令行方法通过官方 DBeaver 仓库或 Snap 包安装. 方法一:从官方仓库安装 D ...
Docker基本概念（LXC？镜像、容器、仓库是什么？容器和虚拟机又是什么？）（一）
学习Docker前,我们有必要了解下Docker的前生LXC(Linux Container). 一.LXC介绍 LXC 可以提供轻量级的虚拟化,用来隔离进程和资源,和我们传统观念中的全虚拟化完全不一 ...
一些rand()的测试
rand()生成的伪随机数已经足够我们实用,为了跟好的理解rand()跟seed的关系,做了一些测试! rand()函数种子默认为1,在每一次程序运行中,随机数相同,在一次运行中,可将生成数看做随机 ...
如何更改Wordpress语言为中文
在使用WordPress的时候,一般安装默认语言是英文,可以在后台设置里面直接修改站点语言为简体中文,当后台没有语言选项框的这一栏,如下图所示,该怎么办呢? 这个时候我们可以找到文件wp-config ...
Word、Excel办公书的资源下载
我是清华社编辑,下载资源没有版权问题,可供读者个人学习用,但不允许商用. 微信扫描,清华社网盘,可转自己邮箱下载.安全,无风险. <Word/Excel/PPT 2019商务办公从入门到精通&g ...

RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）

01 env 的初始化与 reset

02 与环境交互的 step 函数

03 高级用法

RL 基础 | 如何使用 OpenAI Gym 接口，搭建自定义 RL 环境（详细版）的更多相关文章

随机推荐

热门专题