强化学习实战 | 自定义Gym环境
新手的第一个强化学习示例一般都从Open Gym开始。在这些示例中,我们不断地向环境施加动作,并得到观测和奖励,这也是Gym Env的基本用法:
state, reward, done, info = env.step(action)
其中state是agent的观测状态,reward是采取了action之后环境返回的奖励,done是判断后继状态是否是终止状态的flag,info是一些自定义的消息。
当后继状态是终止状态时,需要重置环境,使之回到初始状态:
env.reset()
接下来,我们就以以上两个基本用法为目标,自定义一个Gym下的简单环境:
| S0 | S1 | S2 |
| -1 | -1 | 10 |
初始状态S0,终止状态S2,抵达状态S0 S1 S2的奖励分别为-1,-1和10,agent有向左和向右两个动作。
步骤1:创建文件夹和文件
本人为了做深度学习,使用conda的环境管理功能创建了名为 pytorch1.1的环境,于是来到目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym\envs
创建文件夹 user ,用于专门存放自定义的环境,然后进入该目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym\envs\user,创建文件 __init__.py 和 basic_env.py
步骤2:编写 basic_env.py 和 __init__.py
basic_env是我们要写的简单环境示例的文件名,内容如下:
import gym
class BasicEnv(gym.Env):
def __init__(self):
self.action_space = ['left', 'right'] # 动作空间
self.state_space = ['s0', 's1', 's2'] # 状态空间
self.state_transition = { # 状态转移表
's0': {'left':'s0', 'right':'s1'},
's1': {'left':'s0', 'right':'s2'}
}
self.reward = {'s0':-1, 's1':-1, 's2':10} # 奖励
self.state = 's0' def step(self, action):
next_state = self.state_transition[self.state][action] # 通过两个关键字查找状态转移表中的后继状态
self.state = next_state
reward = self.reward[next_state]
if next_state == 's2':
done = True
else:
done = False
info = {}
return next_state, reward, done, info def reset(self):
self.state = 's0'
return self.state def render(self, mode='human'):
draw = ['-' for i in range(len(self.state_space))]
draw[self.state_space.index(self.state)] = 'o'
draw = ''.join(draw)
print(draw)
__init__.py是引入环境类的入口函数,写入:
from gym.envs.user.basic_env import BasicEnv
步骤3:注册环境
来到目录:D:\Anaconda\envs\pytorch1.1\Lib\site-packages\gym,所有的环境都在__init__.py文件中注册,打开这个文件,发现很多类似这样的代码:
# Toy Text
# ---------------------------------------- register(
id="Blackjack-v1",
entry_point="gym.envs.toy_text:BlackjackEnv",
kwargs={"sab": True, "natural": False},
) register(
id="FrozenLake-v1",
entry_point="gym.envs.toy_text:FrozenLakeEnv",
kwargs={"map_name": "4x4"},
max_episode_steps=100,
reward_threshold=0.70, # optimum = 0.74
) register(
id="FrozenLake8x8-v1",
entry_point="gym.envs.toy_text:FrozenLakeEnv",
kwargs={"map_name": "8x8"},
max_episode_steps=200,
reward_threshold=0.85, # optimum = 0.91
)
模仿这个格式,我们添加自己的代码,注册自己的环境:
# User
# ----------------------------------------
register(
id="BasicEnv-v0", # 环境名
entry_point="gym.envs.user:BasicEnv", #接口
reward_threshold=10, # 奖励阈值
max_episode_steps = 10, # 最大步长
)
注册了的环境,可以通过向gym的通用接口写入环境名创建。除了环境名和接口两个基本信息外,奖励阈值和最大步长则是与训练相关的参数,还可以自行添加其他参数。
步骤4:测试环境
在测试代码中,我们设置了一个主循环,让agent随机选择向左或向右,直到抵达终止状态,或达到了在注册环境中设置的最大步长max_episode_steps(实现方式是使得done = True),代码如下:
import gym
import random
import time from gym import envs
print(envs.registry.all()) # 查看所有已注册的环境 env = gym.make('BasicEnv-v0')
env.reset() # 在第一次step前要先重置环境 不然会报错
action_space = env.action_space
while True:
action = random.choice(action_space) # 随机动作
state, reward, done, info = env.step(action)
print('reward: %d' % reward)
env.render()
time.sleep(0.5)
if done: break
强化学习实战 | 自定义Gym环境的更多相关文章
- 强化学习实战 | 自定义Gym环境之井字棋
在文章 强化学习实战 | 自定义Gym环境 中 ,我们了解了一个简单的环境应该如何定义,并使用 print 简单地呈现了环境.在本文中,我们将学习自定义一个稍微复杂一点的环境--井字棋.回想一下井字棋 ...
- 强化学习实战 | 自定义Gym环境之扫雷
开始之前 先考虑几个问题: Q1:如何展开无雷区? Q2:如何计算格子的提示数? Q3:如何表示扫雷游戏的状态? A1:可以使用递归函数,或是堆栈. A2:一般的做法是,需要打开某格子时,再去统计周围 ...
- 强化学习实战 | 自定义gym环境之显示字符串
如果想用强化学习去实现扫雷.2048这种带有数字提示信息的游戏,自然是希望自定义 gym 环境时能把字符显示出来.上网查了很久,没有找到gym自带的图形工具Viewer可以显示字符串的信息,反而是通过 ...
- 强化学习实战 | 表格型Q-Learning玩井字棋(一)
在 强化学习实战 | 自定义Gym环境之井子棋 中,我们构建了一个井字棋环境,并进行了测试.接下来我们可以使用各种强化学习方法训练agent出棋,其中比较简单的是Q学习,Q即Q(S, a),是状态动作 ...
- 强化学习实战 | 表格型Q-Learning玩井字棋(二)
在 强化学习实战 | 表格型Q-Learning玩井字棋(一)中,我们构建了以Game() 和 Agent() 类为基础的框架,本篇我们要让agent不断对弈,维护Q表格,提升棋力.那么我们先来盘算一 ...
- 强化学习实战 | 表格型Q-Learning玩井子棋(三)优化,优化
在 强化学习实战 | 表格型Q-Learning玩井字棋(二)开始训练!中,我们让agent"简陋地"训练了起来,经过了耗费时间的10万局游戏过后,却效果平平,尤其是初始状态的数值 ...
- 强化学习实战 | 表格型Q-Learning玩井字棋(四)游戏时间
在 强化学习实战 | 表格型Q-Learning玩井字棋(三)优化,优化 中,我们经过优化和训练,得到了一个还不错的Q表格,这一节我们将用pygame实现一个有人机对战,机机对战和作弊功能的井字棋游戏 ...
- 强化学习-linux安装gym、atari和box2d环境
安装gym和atari环境 pip3 install gym pip3 install gym[atari] pip3 install gym[accept-rom-license] 安装box2d环 ...
- 强化学习-Windows安装gym、atari和box2d环境
安装gym pip3 install gym pip3 install gym[accept-rom-license] 安装atari环境[可选] 下载安装VS build tools 如果出现 OS ...
随机推荐
- 五分钟搞懂spring-cloud-square
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 初识spring-cloud-square 2021年 ...
- mbps和MB/s是怎么换算的
Mbps即"传输速率",也叫"带宽".去营业厅开网线的时候会问开几兆的宽带,这里说的"几兆的宽带"就是指多少Mbps,但是Mbps和MB/s ...
- 2021 ICPC Gran Premio de Mexico 2da Fecha部分题题解
前面的水题,在队友的配合下,很快就拿下了,剩下几道大毒瘤题,一直罚座三个小时,好让人自闭...但不得不说,这些题的质量是真的高! H. Haunted House 首先看这个题,大眼一扫,觉得是某种数 ...
- 启用MFA的office 365 账号如何连接Exchange online
第一篇随手笔记,从简单开始... 如何使用Exchange Online PowerShell呢? 以Windows操作系统为例,如Windows10:首先需要安装Exchange Online Po ...
- KMP算法-字符匹配
字符匹配模式-KMP算法 j直接跳到了2的位置,因为在之前的都相同. 那么就需要求如果不等了之后,j需要回跳的位置next[j] 如果tk'与tj相等,则next [j+1]=k'+1 如果tk'与t ...
- DockerFile-构建容器的基石
DockerFile 非常的关键,它不同于 docker commit 的手动命令方式来进行镜像的构建和修改,类似 docker commit 的交互被称为命令式交互.命令式交互是运维一直绕不开的一种 ...
- 【JAVA】笔记(8)--- java.lang.String 精讲
String 特性: 1.String 表示字符串类型,属于引用数据类型,所以其储存的是地址: 2.java 中规定,双引号括起来的字符串是不可变的,也就说" name "永远也只 ...
- OpenShift S2I 概念及流程
S2I 概念 S2I(Source To Image)即从源码到镜像的一个过程,OpenShift 将它作为基础功能提供给用户,包含 S2I CLI 工具 与 S2I 流程.通过这些工具和既定流程,能 ...
- OpenStack平台的使用
一.OpenStack平台的使用 使用双节点部署,192.168.16.10为控制节点.192.168.16.20为计算节点. (一).创建镜像 1.在控制节点中找到qcow2镜像 [root@con ...
- JVM核心——JVM运行和类加载全过程
1.类加载全过程 (1)类加载机制 JVM把class文件加载到内存,并对数据进行校验.解析和初始化,最终形成JVM可以直接使用的Java类型的过程. 加载 将class文件字节码内容加载到内存中,并 ...