相关:

python中numpy.random.seed设置随机种子是否影响子进程

============================================

代码:

from ale_python_interface import ALEInterface
import numpy as np
np.random.seed(1111)
import cv2
import time filename = "atari_roms" + "/" + "pong" + ".bin" ale_int = ALEInterface()
ale_int.setInt(b"random_seed", 1111)
ale_int.setFloat(b"repeat_action_probability", 0.0)
ale_int.setInt(b"frame_skip", 1)
ale_int.setBool(b"color_averaging", False)
ale_int.loadROM(str.encode(filename))
num_actions = len(ale_int.getMinimalActionSet())
legal_actions = ale_int.getMinimalActionSet()
h, w = ale_int.getScreenDims()
gray_screen = np.zeros((h, w, 1), dtype=np.uint8) ale_int.reset_game() pre_screen = None
for i in range(30):
ale_int.act(legal_actions[0])
ale_int.getScreenGrayscale(gray_screen) for i in range(1000):
pre_screen = np.copy(gray_screen)
ale_int.act(legal_actions[np.random.randint(len(legal_actions))])
ale_int.getScreenGrayscale(gray_screen)
# cv2.imshow("Example Image", gray_screen)
# time.sleep(0.01) # print(gray_screen)
det = np.sum(pre_screen - gray_screen)
print(det, ale_int.game_over())

运行结果:

=============================

对比代码:

from multiprocessing import Process

from ale_python_interface import ALEInterface
import numpy as np
np.random.seed(1111)
# import cv2
# import time filename = "atari_roms" + "/" + "pong" + ".bin" ale_int = ALEInterface()
ale_int.setInt(b"random_seed", 1111)
ale_int.setFloat(b"repeat_action_probability", 0.0)
ale_int.setInt(b"frame_skip", 1)
ale_int.setBool(b"color_averaging", False)
ale_int.loadROM(str.encode(filename))
num_actions = len(ale_int.getMinimalActionSet())
legal_actions = ale_int.getMinimalActionSet()
h, w = ale_int.getScreenDims()
gray_screen = np.zeros((h, w, 1), dtype=np.uint8) ale_int.reset_game() class NN(Process):
def __init__(self, id, ale):
super(NN, self).__init__()
self.id = id
self.ale = ale
def run(self):
super(NN, self).run() ale_int = self.ale num_actions = len(ale_int.getMinimalActionSet())
legal_actions = ale_int.getMinimalActionSet()
h, w = ale_int.getScreenDims()
gray_screen = np.zeros((h, w, 1), dtype=np.uint8) pre_screen = None
for i in range(30):
ale_int.act(legal_actions[0])
ale_int.getScreenGrayscale(gray_screen) for i in range(1000):
pre_screen = np.copy(gray_screen)
ale_int.act(legal_actions[np.random.randint(len(legal_actions))])
ale_int.getScreenGrayscale(gray_screen)
# cv2.imshow("Example Image", gray_screen)
# time.sleep(0.01) # print(gray_screen)
det = np.sum(pre_screen - gray_screen)
print(det, ale_int.game_over()) ps = [NN(i, ale_int) for i in range(1)]
for p in ps:
p.start() for p in ps:
p.join()

运行结果:

PS:

可以看到,在python中子进程生成时会copy父进程中的对象,哪怕是atari游戏这种调用C语言扩展模块的对象也会被copy状态给子进程,这个和其他python中对象一样;这个特点和python中numpy.random.seed设置随机种子是否影响子进程相一致。

注意,上面代码中设置numpy和atari游戏的随机种子状态的代码为:

PS:

扩展一下,正因为python在生成子进程时会copy父进程状态这一特点,所以在生成子进程时我们需要在子进程中设置随机种子,并且在子进程中设置随机种子时要保证各个子进程被传入一个不同的数值;要注意在各个子进程中time.time()的数值也都是相同的,如果不能从父进程为各个子进程传入一个不同的数值,那么各个进程运行起来所使用的随机种子会是一致的,这样会影响最终的运算结果。给出具体例子:

要注意,在不同子进程生成过程中,这个参数 actor_id 的数值是不同的,以此来保证各个子进程会有不同的随机种子。

============================================

强化学习中子进程调用atari游戏是否受父进程中设置的随机种子影响的更多相关文章

  1. 基于Keras的OpenAI-gym强化学习的车杆/FlappyBird游戏

    强化学习 课程:Q-Learning强化学习(李宏毅).深度强化学习 强化学习是一种允许你创造能从环境中交互学习的AI Agent的机器学习算法,其通过试错来学习.如上图所示,大脑代表AI Agent ...

  2. ICML论文|阿尔法狗CTO讲座: AI如何用新型强化学习玩转围棋扑克游戏

    今年8月,Demis Hassabis等人工智能技术先驱们将来到雷锋网“人工智能与机器人创新大会”.在此,我们为大家分享David Silver的论文<不完美信息游戏中的深度强化学习自我对战&g ...

  3. Linux Guard Service - 守护进程的作用、用途、父进程标识的特点

    让test2直接成为守护进程 [root@localhost 02]# cat test2.c //test2 #include<stdio.h> #include<unistd.h ...

  4. PyQt学习随笔:Model/View开发时在view数据项中设置不同角色数据的方法

    在往Model中通过QStandardItem等类插入数据项时,除了实际插入的存储数据,还可以设置不同角色(请参考<PyQt学习随笔:Model/View中诸如DisplayRole的数据角色及 ...

  5. 强化学习论文(Scalable agent alignment via reward modeling: a research direction)

     原文地址: https://arxiv.org/pdf/1811.07871.pdf ======================================================== ...

  6. [Reinforcement Learning] 强化学习介绍

    随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义 先借用维基百科上对强化 ...

  7. 用深度强化学习玩FlappyBird

    摘要:学习玩游戏一直是当今AI研究的热门话题之一.使用博弈论/搜索算法来解决这些问题需要特别地进行周密的特性定义,使得其扩展性不强.使用深度学习算法训练的卷积神经网络模型(CNN)自提出以来在图像处理 ...

  8. Android(java)学习笔记160:Framework运行环境之 Android进程产生过程

    1.前面Android(java)学习笔记159提到Dalvik虚拟机启动初始化过程,就下来就是启动zygote进程: zygote进程是所有APK应用进程的父进程:每当执行一个Android应用程序 ...

  9. 强化学习(十)Double DQN (DDQN)

    在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性.但是还是有其他 ...

  10. 强化学习(九)Deep Q-Learning进阶之Nature DQN

    在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning ...

随机推荐

  1. C#字符串截取分割方法

    字符串操作:分割 Split.连接数组 Join.拼接 Format.截取 Substring.替换 Replace.左填充 PadLeft.右填充 PadRight.删除 Remove 1 //分割 ...

  2. rabbitMq消息没收到排查

    rabbitMq消息没收到排查 首先看是否本地机器开了服务,或者测试环境里面其他的个人电脑本地服务启动注册了,都监听了同一个队列,导致队列消息被接走了.现象是在测试环境期望的执行没有运行.或者关注服务 ...

  3. ZYNQ:提取PetaLinux中Linux和UBoot配置、源码

    说明 默认情况下,PetaLinux在编译完成后会删除源代码,以节省硬盘空间. 在project-spec/meta-user/conf/petalinuxbsp.conf里,添加如下内容,可以保留L ...

  4. 【论文阅读】ICRA2022: Panoptic Multi-TSDFs: a Flexible Representation for Online Multi-resolution Volumetric Mapping and Long-term Dynamic Scene Consistency

    Type: ICRA Year: 2022 tag: SLAM 参考与前言 论文链接:https://arxiv.org/abs/2109.10165 代码链接:https://github.com/ ...

  5. NXP i.MX 8M Mini开发板规格书(四核ARM Cortex-A53 + 单核ARM Cortex-M4,主频1.6GHz)

    1 评估板简介 创龙科技TLIMX8-EVM是一款基于NXP i.MX 8M Mini的四核ARM Cortex-A53 + 单核ARM Cortex-M4异构多核处理器设计的高性能评估板,由核心板和 ...

  6. Nuxt3 的生命周期和钩子函数(十)

    title: Nuxt3 的生命周期和钩子函数(十) date: 2024/6/30 updated: 2024/6/30 author: cmdragon excerpt: 摘要:本文详细介绍了Nu ...

  7. 美团VS饿了么,到底谁更胜一筹?

    最近啊,收到一个粉丝的投稿,我发现他在美团和饿了么都去面试过. 这俩企业大家应该都经常用吧,咱点外卖的时候,我有时候就琢磨,到底他俩谁更厉害点. 今天咱们就瞅瞅,在面试这块儿谁更难一些. (目前都只有 ...

  8. 2023HACSP-J补测

    都快忘了自己还打过这个比赛了,所以来补一下. 完整题目在这里查看. Day0 来到郑州,寻找考场.幸好提前来了,因为考场大门就 5m 宽(HA用不用这么穷啊喂,来JZYZ不好么),开车转了 20min ...

  9. 接口防刷!利用redisson快速实现自定义限流注解

    问题: 在日常开发中,一些重要的对外接口,需要加上访问频率限制,以免造成资��损失. 如登录接口,当用户使用手机号+验证码登录时,一般我们会生成6位数的随机验证码,并将验证码有效期设置为1-3分钟,如 ...

  10. ArchLinux Vmware安装指北

    ArchLinux Vmware安装指北 在本文开始之前,首先允许我提前声明一点,Arch Linux的安装并不算难,但是绝对也算不上简单,中间的安装可能会遇到很多问题,本篇文章不能保证完全贴合你的真 ...