alien
amidar
assault
asterix
asteroids
atlantis bank_heist
battle_zone
beam_rider
berzerk
bowling
boxing
breakout centipede
chopper_command
crazy_climber defender
demon_attack
double_dunk enduro fishing_derby
freeway
frostbite gopher
gravitar hero ice_hockey kangaroo
krull
kung_fu_master montezuma_revenge
ms_pacman name_this_game phoenix
pitfall
pong
private_eye qbert road_runner
robotank seaquest
skiing
solaris
space_invaders
star_gunner
surround tennis
time_pilot
tutankham venture
video_pinball wizard_of_wor yars_revenge zaxxon

个人整理的   bin  文件地址:

https://gitee.com/devilmaycry812839668/atari_roms

原bin地址:

https://github.com/Kojoley/atari-py/tree/master/atari_py/atari_roms

测试本地环境下是否已经安装好这54个游戏的环境:

前提:

已经安装atari_py库,同时在atari_py库下的atari_roms文件夹下存放了所有的游戏bin文件。

测试代码:

import atari_py

games="""
alien
amidar
assault
asterix
asteroids
atlantis bank_heist
battle_zone
beam_rider
berzerk
bowling
boxing
breakout centipede
chopper_command
crazy_climber defender
demon_attack
double_dunk enduro fishing_derby
freeway
frostbite gopher
gravitar hero ice_hockey kangaroo
krull
kung_fu_master montezuma_revenge
ms_pacman name_this_game phoenix
pitfall
pong
private_eye qbert road_runner
robotank seaquest
skiing
solaris
space_invaders
star_gunner
surround tennis
time_pilot
tutankham venture
video_pinball wizard_of_wor yars_revenge zaxxon
""" def fun(games):
ok = 0
no_ok = 0
for i in games.split():
if i in set(atari_py.list_games()):
ok += 1
else:
no_ok += 1
print(i, "not in environment !!!") print(ok, " games in local environment")
print(no_ok, " games not in local environment") fun(games)

结果:

=======================================================

atari_2600 游戏镜像权威下载地址:

http://www.atarimania.com/rom_collection_archive_atari_2600_roms.html

=======================================================

注意:(     更正 !!!  )

这里的surround.bin 文件无法导入内存,该款游戏无法正常运行。另外pacman游戏也有这个问题。本文中的54个游戏其实只有53个是可以正常运行的。

强化学习baseline论文—— rainbow算法中给出实验结果的54个atari2600游戏名称列表的更多相关文章

  1. temporal credit assignment in reinforcement learning 【强化学习 经典论文】

    Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd  论文:   temporal credit assignment i ...

  2. 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

    1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...

  3. (转) 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)

    本文转自:http://mp.weixin.qq.com/s/aAHbybdbs_GtY8OyU6h5WA 专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文) 原创 201 ...

  4. ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏

    今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...

  5. 【转载】 DeepMind发表Nature子刊新论文:连接多巴胺与元强化学习的新方法

    原文地址: baijiahao.baidu.com/s?id=1600509777750939986&wfr=spider&for=pc 机器之心 18-05-15   14:26 - ...

  6. 强化学习中的无模型 基于值函数的 Q-Learning 和 Sarsa 学习

    强化学习基础: 注: 在强化学习中  奖励函数和状态转移函数都是未知的,之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数,然后将强化学习问题转换为可以使用动态规划求解的 ...

  7. 【强化学习】DQN 算法改进

    DQN 算法改进 (一)Dueling DQN Dueling DQN 是一种基于 DQN 的改进算法.主要突破点:利用模型结构将值函数表示成更加细致的形式,这使得模型能够拥有更好的表现.下面给出公式 ...

  8. 深度强化学习中稀疏奖励问题Sparse Reward

    Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 ​ 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...

  9. Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C(3)

    在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们 ...

  10. 强化学习(十二) Dueling DQN

    在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

随机推荐

  1. 写了一个 SRE 调试工具,类似一个小木马

    远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件.是一个 Web Server,通过 HTTP 请求来操作机器,类似一个小木马.当然,因为是一个 Web Ser ...

  2. Mysql性能优化(详解)

    引言 今天,数据库的操作越来越成为整个应用的性能瓶颈了,这点对于Web应用尤其明显.关于数据库的性能,这并不只是DBA才需要担心的事,而这更是我们程序员需要去关注的事情.当我们去设计数据库表结构,对操 ...

  3. 以 ZGC 为例,谈一谈 JVM 是如何实现 Reference 语义的

    本文基于 OpenJDK17 进行讨论 1. Reference 相关概念及其应用场景总览 Reference(引用)是 JVM 中非常核心且重要的一个概念,垃圾回收器判断一个对象存活与否都是围绕着这 ...

  4. 安卓app 地铁最短路径查询 完成

    我通过三个函数 完成了这个功能 首先  创建哈希表 根据起始站名 终点站名 然后 根据哈希表 建立起 邻接表' 最后 根据迪杰斯特拉算法 完成这个功能 /** * function:起终查询 */ / ...

  5. 记一次 React context 使用

    学习 React 之 Context 使用 记录一次React context 使用 React.createContext Api 新建文件 contexts.js 文件用来存放 context 对 ...

  6. idea导入maven项目发现有jar或插件无法下载检查idea中的maven配置,maven配置文件中需配置阿里云的镜像地址

    D:\apache-maven-3.2.3\conf\settings.xml <mirrors> <mirror> <id>nexus-public-snapsh ...

  7. 将强化学习重新引入 RLHF

    我们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器.作为一种替代 PPO 的方法,RLOO 是一种新的在线 RLHF 训练算法,旨在使其更易于访问和实施 ...

  8. 记一个,生产遇到的redission锁,释放问题:lock.tryLock(0, 0, TimeUnit.SECONDS)

    package com.aswatson.cdc.test; import org.redisson.Redisson; import org.redisson.api.RLock; import o ...

  9. P3731 题解

    简要题意是找到一条边连接使得最大团大小增加. 在补图上最大团等于最大独立集. 所以问题转化为删掉一条边使得最大独立集增加,又因为团不超过两个,所以原图是二分图,也就是使得最大匹配减少. 考虑什么样的匹 ...

  10. Spring5.X的注解配置项目

    pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="htt ...