声明:

本文是最新版gym-0.26.2下Atari环境的安装以及环境版本v0,v4,v5的说明的部分更新和汇总,可以看作是更新和延续版本。

由于gym已经由openai公司独立出来,虽然开发团队和投资方都没有变,但是相关的网站和版本已经由变化了,名字也从gym变成gymnasium,因此我们在讨论gym的时候默认都是指最新的gymnasium版本,其相关地址:

https://gymnasium.farama.org/

但是其所含的atari环境也从gymnasium中独立出来,其最新地址为:

https://ale.farama.org/

本文内容主要是对最新版gym-0.26.2下Atari环境的安装以及环境版本v0,v4,v5的说明的延续和更新,关于v0,v4,v5版本的不同请转至该链接地址下。

更新:

space_invaders游戏下v5版本的frameskip=4,而不是3,但是这并不会出现什么太大问题,因为v5版本下repeat_action_probability=0.25,这种随机性可以避免原始DQN论文中指出的可能出现的问题;而当repeat_action_probability=0时要么frameskip=3,要么frameskip =(2,3,4)中的随机数值,由此可以看到在space_invaders的真实交互中只要保证一定的随机性,那么即使v5版本中frameskip=4也不会影响真实的DQN算法训练的。

论文:

Machado et al.

“Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents”

Journal of Artificial Intelligence Research (2018)

URL: https://jair.org/index.php/jair/article/view/11182

中对游戏的模式和难度级别给出的大致情况:

gym给出的具体实现重点模式和难度级别情况:

https://www.gymlibrary.dev/environments/atari/#flavors

使用DQN算法解决atari游戏时的常用超参设置:

PS:

为什么在atari游戏中使用repeat_action_probability很重要呢,因为atari游戏是确定性游戏而不是随机性游戏,也就是说atari游戏是从同一个起始点开始的,如果采用相同的交互动作,那么多次生成的新的episodes将会是完全相同的,而这种不具备随机性的游戏环境是不符合真实强化学习应该解决的问题的要求的,因此需要加入该参数以增加强化学习算法对随机环境的适应能力。

相关:

最新版gym-0.26.2下Atari环境的安装以及环境版本v0,v4,v5的说明

(续) gym atari游戏的环境设置问题:Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别

【转载】 gym atari游戏的环境设置问题:Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别

gym中所有可以用的模拟环境

强化学习环境gym/gymnasium下的atari环境的v0、v4、v5的说明的更多相关文章

  1. Java学习心得之 Linux下搭建Java环境

    作者:枫雪庭 出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Java学习心得之 Linux下搭建Java环境 1.前言2.JDK安装3.配置环境变量4. ...

  2. Java学习心得之 Linux下搭建JavaWeb环境

    作者:枫雪庭 出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Java学习心得之 Linux下搭建JavaWeb环境 1. 前言2. Java安装3. t ...

  3. Ruby学习心得之 Linux下搭建Ruby环境

    作者:枫雪庭 出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Ruby学习心得之 Linux下搭建Ruby环境1.前言2.Linux下安装Ruby环境 一 ...

  4. Scrapy爬虫学习笔记 - windows \ linux下搭建开发环境2

    四.虚拟环境的安装和配置 virtualenv可以搭建虚拟且独立的python运行环境, 使得单个项目的运行环境与其它项目独立起来. virtualenv本质上是个python包 虚拟环境可以将开发环 ...

  5. 一步步学习Python-django开发-Mac下搭建Python-Django环境

    首先确定学习那一个版本,以之前对Python的接触,Python2.x 的版本仍然占据很大的市场.但作为初学者我还是决定学习新的版本,相信未来会逐渐转向3.x版本的. 其实搭建Python不是一件很难 ...

  6. Scrapy爬虫学习笔记 - windows \ linux下搭建开发环境1

    一.pycharm的安装和简单使用                                   二.mysql和navicat的安装和使用    三.windows和linux下安装pytho ...

  7. 强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)

    openAI 公司给出了一个集成较多环境的强化学习平台  gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...

  8. Linux学习心得之 Linux下命令行Android开发环境的搭建

    作者:枫雪庭 出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Linux学习心得之 Linux下命令行Android开发环境的搭建 1. 前言2. Jav ...

  9. 【转】【强化学习】Deep Q Network(DQN)算法详解

    原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...

  10. 深度强化学习资料(视频+PPT+PDF下载)

    https://blog.csdn.net/Mbx8X9u/article/details/80780459 课程主页:http://rll.berkeley.edu/deeprlcourse/ 所有 ...

随机推荐

  1. Linux驱动 | 从0写一个设备树节点实例

    一.前言 设备树是每一个Linux驱动工程师都必须掌握的一个知识点,有很多之前做单片机的朋友刚接触Linux驱动时,会一脸懵! 其实设备树的使用并没有大家想像的那么复杂,对于大部分工程师来说,只要会修 ...

  2. 100ASK_IMX6ULL arm板子如何移植刷卡器

    最近为了在arm板子上移植刷卡器,比较简单,但也遇到了坑,现在和大家分享下. 购买刷卡器 某宝很多,应该选哪一种呢? 一口君一共买了4种刷卡器,有2种可以用,还有2种不能用. 下图为最方便的一款,一口 ...

  3. java_基本类型

    1. 所有的基本类型都是小写 例如  int 2. 所有的类  类型首字母大写  例如String

  4. 在 Python 中通过读取 .env 文件获得环境变量

    在编写 Python 脚本时,我们会使用一些私密数据,如调用 API 时使用的 token.为了避免隐私泄露,这些私密数据一般不直接写入脚本文件中.而是写入一个文件,并通过读取文件的方式获取私密数据内 ...

  5. Java 实现线程的方式有几种方式?带有返回值的线程怎么实现?

    Java 实现线程的方式有几种方式?带有返回值的线程怎么实现? 在Java线程开发中,有几种方法开启线程?假如需要得到线程返回的信息怎么办?可以实现吗?凯哥将通过源码和大家一起分享下线程怎么将返回值带 ...

  6. 示例python 批量操作excel统计销售榜品牌及销售额

    示例统计销售榜品牌及销售额 import pandas as pd import numpy as np import os os.chdir('F:\\50mat\源数据1000张表格') name ...

  7. C# – class, filed, property, const, readonly, get, set, init, required 使用基础

    前言 心血来潮,这篇讲点基础的东西. Field 比起 Property,Field 很不起眼,你若问 JavaScript,它甚至都没有 Field. 但在 C#,class 里头真正装 value ...

  8. 全网最适合入门的面向对象编程教程:48 Python函数方法与接口-位置参数、默认参数、可变参数和关键字参数

    全网最适合入门的面向对象编程教程:48 Python 函数方法与接口-位置参数.默认参数.可变参数和关键字参数 摘要: 在 Python 中,函数可以接受多种不同类型的参数,包括位置参数.默认参数.可 ...

  9. Spring —— 整合MyBatis

    MyBatis核心程序      配置文件    整合MyBatis      

  10. freemarker实现导出word复选框可点击效果

    记一次java导出word文档,导出的word文档里包含复选框并且能点击,一开始做了个输出字符的,比如这样: □,然而并不能满足需求,网上找了一大堆也都是这种的. 正文开始: 先在word中添加复选框 ...