根据前文(https://www.cnblogs.com/devilmaycry812839668/p/14665072.html)我们知道:

  1. 首先是v0和v4的区别:带有v0的env表示会有25%的概率执行上一个action,而v4表示只执行agent给出的action,不会重复之前的action。
  2. 带有Deterministic的env表示固定跳4帧,否则跳帧数随机从  (2, 5)  (2,4)   中采样。
  3. 带有NoFrameskip的env表示没有跳帧。

=========================================

看下主要的源代码的评论:

https://github.com/openai/gym/issues/1280

看下主要的源代码:

source code

v0   与     v4  版本:

Deterministic  下的    v0   与     v4  版本:

NoFrameskip  下的    v0   与     v4  版本:

 

============================================

可以看到在  Atari  游戏中, v0  v4 版本,与   Deterministic 下的  v0   v4 版本,  与   NoFrameskip 下的   v0   v4 版本  区别在于:

kwargs 字典中  键值     'frameskip'     ,      'repeat_action_probability'

frameskip 是指定是否跳帧(中间帧使用重复动作),   repeat_action_probability 是指每次执行动作时重复上次选择的动作的概率

可以看到   repeat_action_probability  主要用于区分 三类  v0  v4版本下的不同,  带有v0 的则是以概率0.25来选择上次执行的动作,  而v4则不设置该概率(以0概率执行上次动作,以1概率执行本次的动作)。

而  repeat_action_probability   只在  deterministic  和   NoFrameskip 下存在:

可以看到在所有游戏中frameskip默认设置为4,而只有在space_invaders中设置为3, 而这也是符合DeepMind原始论文中的设置的。

也就是说原始v0, v4版本是没有设置frameskip的,也就是说每次接收agent动作时都是随机从(2, 5)中选择跳帧数。

而Deterministic 下  除了space_invaders中frameskip设置为3其余的frameskip均设置为4。

而NoFrameskip 下所有游戏frameskip均设置为1。

注:frameskip均设置为1意味着每个帧都需要agent输入动作,不进行跳帧。跳帧的话,中间帧都是执行重复的动作。

举例:

fameskip=1

0帧时agent传入动作a0,         1帧时agent传入动作a1,         2帧时agent传入动作a2,         3帧时agent传入动作a3  。

fameskip=2

0帧时agent传入动作a0,         1帧时不需要agent传入动作而是继续执行动作a0,         2帧时agent传入动作a2,         3帧时不需要agent传入动作而是继续执行动作a2  。

fameskip=3

0帧时agent传入动作a0,         1帧时不需要agent传入动作而是继续执行动作a0,         2帧时不需要agent传入动作而是继续执行动作a0,         3帧时agent传入动作a3  。

fameskip=4

0帧时agent传入动作a0,         1帧时不需要agent传入动作而是继续执行动作a0,         2帧时不需要agent传入动作而是继续执行动作a0,         3帧时不需要agent传入动作而是继续执行动作a0 ,  4帧时agent传入动作a4。

============================================

为了更进一步了解    'frameskip'     ,      'repeat_action_probability'  的意义,

查看链接   here  :

在  https://github.com/openai/gym/blob/master/gym/envs/atari/atari_env.py#L24  中可以知道:

step 函数的具体设置:

AtariEnv 类的初始化:

从AtariEnv 类的初始化  及   step 函数的具体设置  可以看到    frameskip (跳帧) 确实为前面的分析一致。

但是很神奇的是在  step中并没有   repeat_action_probability   的设置。

但是在AtariEnv 类的初始化  中可以看到

也就是说,repeat_action_probability 的设置是对     self.ale   进行的。

而  step 中具体的操作也是传给    self.ale   进行的。

由此我们可以知道, 如果我们设置了  repeat_action_probability  ,那么对于frameskip的中间帧进行重复的动作依然进行  repeat_action_probability 操作。

举例:  (设置repeat_action_probability,即动作重复概率为0.25 )

fameskip=1

0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0,   最终执行的动作记为b0;

1帧时agent传入动作a1,传给ale的动作为a1,但是ale以0.25的概率执行b0,  以0.75的概率执行a1, 最终执行的动作记为b1;

2帧时agent传入动作a2,传给ale的动作为a2,但是ale以0.25的概率执行b1,  以0.75的概率执行a2, 最终执行的动作记为b2;

3帧时agent传入动作a3,传给ale的动作为a3,但是ale以0.25的概率执行b2,  以0.75的概率执行a3, 最终执行的动作记为b3;

fameskip=2

0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0,   最终执行的动作记为b0;

1帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b0,  以0.75的概率执行a0, 最终执行的动作记为b1;

2帧时agent传入动作a2,传给ale的动作为a2,但是ale以0.25的概率执行b1,  以0.75的概率执行a2, 最终执行的动作记为b2;

3帧时不需要agent传入动作,传给ale的动作为a2,但是ale以0.25的概率执行b2,  以0.75的概率执行a2, 最终执行的动作记为b3;

fameskip=3

0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0,   最终执行的动作记为b0;

1帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b0,  以0.75的概率执行a0, 最终执行的动作记为b1;

2帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b1,  以0.75的概率执行a0, 最终执行的动作记为b2;

3帧时agent传入动作a3,传给ale的动作为a3,但是ale以0.25的概率执行b2,  以0.75的概率执行a3, 最终执行的动作记为b3;

=====================================================

关于   repeat_action_probability  部分参考:

https://blog.csdn.net/qq_27008079/article/details/100126060

Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents

在论文revisiting the arcade中5.2解释的很清楚,里面图3很形象

=============================================

(续) gym atari游戏的环境设置问题:Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别的更多相关文章

  1. 强化学习-linux安装gym、atari和box2d环境

    安装gym和atari环境 pip3 install gym pip3 install gym[atari] pip3 install gym[accept-rom-license] 安装box2d环 ...

  2. 强化学习-Windows安装gym、atari和box2d环境

    安装gym pip3 install gym pip3 install gym[accept-rom-license] 安装atari环境[可选] 下载安装VS build tools 如果出现 OS ...

  3. Cocos开发中Visual Studio下HttpClient开发环境设置

    Cocos2d-x 3.x将与网络通信相关的类集成到libNetwork类库工程中,这其中包括了HttpClient类.我们需要在Visual Studio解决方案中添加libNetwork类库工程. ...

  4. Cocos发育Visual Studio下一个HttpClient开发环境设置

    Cocos2d-x 3.x相关类集成到网络通信libNetwork图书馆project于.这其中包括:HttpClient分类. 我们需要在Visual Studio溶液中加入libNetwork图书 ...

  5. cocos2d-x 3.11 游戏开发环境搭建流程

    cocos2d-x 3.11.1 游戏开发环境搭建流程 1. 准备下面的软件 1) Windows7 64Bit+ VS2013 (VC++) 这个不用多说. 2) cocos2d-x-3.11.1. ...

  6. Google是如何教会机器玩Atari游戏的

    转自:http://blog.csdn.net/revolver/article/details/50177219 今年上半年(2015年2月),Google在Nature上发表了一篇论文:Human ...

  7. 强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)

    openAI 公司给出了一个集成较多环境的强化学习平台  gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...

  8. C语言/C++编程学习:C语言环境设置

    C语言是面向过程的,而C++是面向对象的 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现 ...

  9. 现代3D图形编程学习-环境设置

    本书系列 现代3D图形编程学习 环境设置 由于本书中的例子,均是基于OpenGL实现的,因此你的工作环境需要能够运行OpenGL,为了读者能够更好的运行原文中的示例,此处简单地介绍了linux和win ...

  10. Python 2/3 安装与运行环境设置

    Python 2/3 安装与运行环境设置: 1.Python 软件源:https://www.python.org/    下载Win版本 https://www.python.org/downloa ...

随机推荐

  1. 夜莺项目发布 v6.1.0 版本,增强可观测性数据串联

    大家好,夜莺项目发布 v6.1.0 版本,这是一个中版本迭代,不止是 bugfix 了,而是引入了既有功能的增强.具体增强了什么功能,下面一一介绍. 1. 增强可观测性数据串联 从 v6.1.0 开始 ...

  2. 阅读mmdetection3d框架的源码探索其构建dataset的流程

    在查看一些基于mmdetection3d构建的代码的时候,一开始会摸不着头脑,它的dataset到底是怎么构造的? 接下来就直接下载mmdetection3d这个仓库,然后去分析里面的代码. 可以看到 ...

  3. 记一次 MatPlotLib 报错及解决方案:AttributeError: module 'matplotlib.cbook' has no attribute '_Stack'

    记一次 MatPlotLib 报错及解决方案 目录 记一次 MatPlotLib 报错及解决方案 解决方法 具体发生了什么 报错 log 1 内容 报错 log 2 内容 最近出现 MatPlotLi ...

  4. 海思SDK 学习 :000-海思HI35xx平台软件开发快速入门之背景知识

    背景 参考自:<HiMPP V3.0 媒体处理软件开发参考.pdf> 由于在音视频处理领域,海思芯片占有全球市场的很大份额.当我们选择使用海思芯片开发时,程序开发模型主要是围绕HIMPP( ...

  5. get基于报错的sql注入

    get基于报错的sql注入发现 Less1: sqli-labs第一关提示说在网页上输入id,也就是?id=1. 但这个?是什么意思,它表示index.php?也就是默认页面.然后?id=1就是把id ...

  6. Spark3 学习【基于Java】4. Spark-Sql数据源

    通过DF,Spark可以跟大量各型的数据源(文件/数据库/大数据)进行交互.前面我们已经看到DF可以生成视图,这就是一个非常使用的功能. 简单的读写流程如下: 通过read方法拿到DataFrameR ...

  7. PS工具的基本使用

    常见的图片格式: 切片工具的使用 1.用切片选中图片 2.导出切片 3.切片悬着工具 可以选择指定 切片框 删除. 点击图层 切图 清除切片 基于参考线的切片 切图插件Cutterman

  8. Java uuid生成随机32位

    import java.util.UUID; /** * @ClassName:UuidUtils * @Description:uuid工具类 * @Author:chenyb * @Date:20 ...

  9. nuxt3正确使用keepalive页面缓存组件缓存

    最近使用nuxt@3.x版本做SEO优化项目比较多,之前也踩坑过,所以记录一下在 nuxt3 中路由缓存的正确使用方法,本人也之前在GitHub社区中提交过反馈问题,最后是在 3.8.2 版本解决了路 ...

  10. 洛谷P1077

    这道题和上一道题也是比较像的,基本采用的也是线性dp的思路 状态数组稍微有点不同,这里表示的是当前种数的花时一共的花的数量 #include<iostream> #include<u ...