(续) gym atari游戏的环境设置问题:Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别
根据前文(https://www.cnblogs.com/devilmaycry812839668/p/14665072.html)我们知道:
- 首先是v0和v4的区别:带有v0的env表示会有25%的概率执行上一个action,而v4表示只执行agent给出的action,不会重复之前的action。
- 带有Deterministic的env表示固定跳4帧,否则跳帧数随机从 (2, 5) (2,4) 中采样。
- 带有NoFrameskip的env表示没有跳帧。
=========================================
看下主要的源代码的评论:
https://github.com/openai/gym/issues/1280

看下主要的源代码:
v0 与 v4 版本:

Deterministic 下的 v0 与 v4 版本:

NoFrameskip 下的 v0 与 v4 版本:

============================================
可以看到在 Atari 游戏中, v0 v4 版本,与 Deterministic 下的 v0 v4 版本, 与 NoFrameskip 下的 v0 v4 版本 区别在于:
kwargs 字典中 键值 'frameskip' , 'repeat_action_probability'
frameskip 是指定是否跳帧(中间帧使用重复动作), repeat_action_probability 是指每次执行动作时重复上次选择的动作的概率
可以看到 repeat_action_probability 主要用于区分 三类 v0 v4版本下的不同, 带有v0 的则是以概率0.25来选择上次执行的动作, 而v4则不设置该概率(以0概率执行上次动作,以1概率执行本次的动作)。
而 repeat_action_probability 只在 deterministic 和 NoFrameskip 下存在:

可以看到在所有游戏中frameskip默认设置为4,而只有在space_invaders中设置为3, 而这也是符合DeepMind原始论文中的设置的。
也就是说原始v0, v4版本是没有设置frameskip的,也就是说每次接收agent动作时都是随机从(2, 5)中选择跳帧数。
而Deterministic 下 除了space_invaders中frameskip设置为3其余的frameskip均设置为4。
而NoFrameskip 下所有游戏frameskip均设置为1。
注:frameskip均设置为1意味着每个帧都需要agent输入动作,不进行跳帧。跳帧的话,中间帧都是执行重复的动作。
举例:
fameskip=1
0帧时agent传入动作a0, 1帧时agent传入动作a1, 2帧时agent传入动作a2, 3帧时agent传入动作a3 。
fameskip=2
0帧时agent传入动作a0, 1帧时不需要agent传入动作而是继续执行动作a0, 2帧时agent传入动作a2, 3帧时不需要agent传入动作而是继续执行动作a2 。
fameskip=3
0帧时agent传入动作a0, 1帧时不需要agent传入动作而是继续执行动作a0, 2帧时不需要agent传入动作而是继续执行动作a0, 3帧时agent传入动作a3 。
fameskip=4
0帧时agent传入动作a0, 1帧时不需要agent传入动作而是继续执行动作a0, 2帧时不需要agent传入动作而是继续执行动作a0, 3帧时不需要agent传入动作而是继续执行动作a0 , 4帧时agent传入动作a4。
============================================
为了更进一步了解 'frameskip' , 'repeat_action_probability' 的意义,
查看链接 here :
在 https://github.com/openai/gym/blob/master/gym/envs/atari/atari_env.py#L24 中可以知道:
step 函数的具体设置:

AtariEnv 类的初始化:

从AtariEnv 类的初始化 及 step 函数的具体设置 可以看到 frameskip (跳帧) 确实为前面的分析一致。
但是很神奇的是在 step中并没有 repeat_action_probability 的设置。
但是在AtariEnv 类的初始化 中可以看到:

也就是说,repeat_action_probability 的设置是对 self.ale 进行的。

而 step 中具体的操作也是传给 self.ale 进行的。
由此我们可以知道, 如果我们设置了 repeat_action_probability ,那么对于frameskip的中间帧进行重复的动作依然进行 repeat_action_probability 操作。
举例: (设置repeat_action_probability,即动作重复概率为0.25 )
fameskip=1
0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0, 最终执行的动作记为b0;
1帧时agent传入动作a1,传给ale的动作为a1,但是ale以0.25的概率执行b0, 以0.75的概率执行a1, 最终执行的动作记为b1;
2帧时agent传入动作a2,传给ale的动作为a2,但是ale以0.25的概率执行b1, 以0.75的概率执行a2, 最终执行的动作记为b2;
3帧时agent传入动作a3,传给ale的动作为a3,但是ale以0.25的概率执行b2, 以0.75的概率执行a3, 最终执行的动作记为b3;
fameskip=2
0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0, 最终执行的动作记为b0;
1帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b0, 以0.75的概率执行a0, 最终执行的动作记为b1;
2帧时agent传入动作a2,传给ale的动作为a2,但是ale以0.25的概率执行b1, 以0.75的概率执行a2, 最终执行的动作记为b2;
3帧时不需要agent传入动作,传给ale的动作为a2,但是ale以0.25的概率执行b2, 以0.75的概率执行a2, 最终执行的动作记为b3;
fameskip=3
0帧时agent传入动作a0,传给ale的动作为a0,ale执行a0, 最终执行的动作记为b0;
1帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b0, 以0.75的概率执行a0, 最终执行的动作记为b1;
2帧时不需要agent传入动作,传给ale的动作为a0,但是ale以0.25的概率执行b1, 以0.75的概率执行a0, 最终执行的动作记为b2;
3帧时agent传入动作a3,传给ale的动作为a3,但是ale以0.25的概率执行b2, 以0.75的概率执行a3, 最终执行的动作记为b3;
=====================================================
关于 repeat_action_probability 部分参考:
https://blog.csdn.net/qq_27008079/article/details/100126060
Revisiting the Arcade Learning Environment: Evaluation Protocols and Open Problems for General Agents
在论文revisiting the arcade中5.2解释的很清楚,里面图3很形象

=============================================
(续) gym atari游戏的环境设置问题:Breakout-v0, Breakout-v4, BreakoutNoFrameskip-v4和BreakoutDeterministic-v4的区别的更多相关文章
- 强化学习-linux安装gym、atari和box2d环境
安装gym和atari环境 pip3 install gym pip3 install gym[atari] pip3 install gym[accept-rom-license] 安装box2d环 ...
- 强化学习-Windows安装gym、atari和box2d环境
安装gym pip3 install gym pip3 install gym[accept-rom-license] 安装atari环境[可选] 下载安装VS build tools 如果出现 OS ...
- Cocos开发中Visual Studio下HttpClient开发环境设置
Cocos2d-x 3.x将与网络通信相关的类集成到libNetwork类库工程中,这其中包括了HttpClient类.我们需要在Visual Studio解决方案中添加libNetwork类库工程. ...
- Cocos发育Visual Studio下一个HttpClient开发环境设置
Cocos2d-x 3.x相关类集成到网络通信libNetwork图书馆project于.这其中包括:HttpClient分类. 我们需要在Visual Studio溶液中加入libNetwork图书 ...
- cocos2d-x 3.11 游戏开发环境搭建流程
cocos2d-x 3.11.1 游戏开发环境搭建流程 1. 准备下面的软件 1) Windows7 64Bit+ VS2013 (VC++) 这个不用多说. 2) cocos2d-x-3.11.1. ...
- Google是如何教会机器玩Atari游戏的
转自:http://blog.csdn.net/revolver/article/details/50177219 今年上半年(2015年2月),Google在Nature上发表了一篇论文:Human ...
- 强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装. openAI公司的主页: https://www.openai.com/systems/ 从主页上我 ...
- C语言/C++编程学习:C语言环境设置
C语言是面向过程的,而C++是面向对象的 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现 ...
- 现代3D图形编程学习-环境设置
本书系列 现代3D图形编程学习 环境设置 由于本书中的例子,均是基于OpenGL实现的,因此你的工作环境需要能够运行OpenGL,为了读者能够更好的运行原文中的示例,此处简单地介绍了linux和win ...
- Python 2/3 安装与运行环境设置
Python 2/3 安装与运行环境设置: 1.Python 软件源:https://www.python.org/ 下载Win版本 https://www.python.org/downloa ...
随机推荐
- 已将此(这些)订阅标记为不活动,必须将其重新初始化。需要删除 NoSync 订阅,然后重
已将此(这些)订阅标记为不活动,必须将其重新初始化.需要删除 NoSync 订阅,然后重 查找状态不正常的发布 use distribution go select status,*from dbo. ...
- C#.NET 操作FTP
工具类: using System; using System.Collections.Generic; using System.IO; using System.Net; namespace Co ...
- (一)requests-实战小练习
1.需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 (此处以抓取科幻电影分类的信息为例) import requests import json ur ...
- disabled 和 readonly 都是 HTML 表单元素的属性,它们有一些相同点和不同点。
disabled 和 readonly 都是 HTML 表单元素的属性,它们有一些相同点和不同点. 相同点: disabled 和 readonly 属性都可以用于表单中的输入框.文本域等元素,用于控 ...
- IDEA环境编译Spring源码
一.下载源码 1.官网下载 官网地址 如下图 2.github git下载 github地址 如下图 3.gitee git下载(国内推荐使用) gitee地址 如图 查看对应的gradle版本 在下 ...
- 笔记:Sublime Text3配置
Tips:当你看到这个提示的时候,说明当前的文章是由原emlog博客系统搬迁至此的,文章发布时间已过于久远,编排和内容不一定完整,还请谅解` 笔记:Sublime Text3配置 日期:2017-12 ...
- vba--数组
Sub shishi() Range("e2") = Split(Range("e1"), "-")(0) '用短横线分隔后取第1个值 En ...
- Java权限认证框架比较
认证.授权.鉴权和权限控制 定义 英文 实现方式 认证 确认声明者的身份 identification 根据声明者独特的识别信息 授权 获取用户的委派权限 authorization 颁发一个授信媒介 ...
- Linux使用Mysql数据库
启动MySQL: service mysqld start 或者使用如下命令: /etc/init.d/mysqld start 重新启动MySQL: service mysqld restart 或 ...
- SpringBoot快速插入Mysql 1000万条数据
导读 有时候为了验证系统瓶颈,需要往数据库表中插入大量数据,可以写sheel脚本插入,前几天为了插入100万条数据,走的sheel脚本(点我直达),插入速度简直无法直视,花了3小时,才插入了10万条, ...