Reinforcement Learning (DQN) 中经验池详细解释

一般DQN中的经验池类，都类似于下面这段代码。

import random

from collections import namedtuple, deque

Transition = namedtuple('Transition', ('state', 'next_state', 'action', 'reward'))

# 经验池类

class ReplayMemory(object):

    def __init__(self, capacity):

        self.capacity = capacity        # 容量

        self.memory = []

        self.position = 0

    # 将四元组压入经验池

    def push(self, *args):

        if len(self.memory) < self.capacity:

            self.memory.append(None)

        self.memory[self.position] = Transition(*args)

        self.position = (self.position + 1) % self.capacity

    # 从经验池中随机压出一个四元组

    def sample(self, batch_size):

        transitions = random.sample(self.memory, batch_size)

        batch = Transition(*zip(*transitions))

        return batch

    def __len__(self):

        return len(self.memory)

对Python不太熟悉的我里边就有两点比较迷惑，一个是namedtuple（）方法，一个是sample方法的倒数第二行，为什么要这样处理。

第一点，namedtuple（）是继承自tuple的子类，namedtuple（）方法能够创建一个和tuple类似的对象，而且对象拥有可访问的属性。

第二点，也就是sample方法中的倒数第二行，这里进行了一个转换，将batch_size个四元组，转换成，四个元祖，每个元祖一共有batch_size项，这里放个程序解释一下。

import random

from collections import namedtuple

if __name__ == '__main__':

    batch_size = 3

    Transition = namedtuple('Transition', ('state', 'next_state', 'action', 'reward'))

    a=Transition(state=1,next_state=2,action=3,reward=4)

    b=Transition(state=11,next_state=12,action=13,reward=14)

    c=Transition(state=21,next_state=22,action=23,reward=24)

    d=Transition(state=31,next_state=32,action=33,reward=34)

    e=Transition(state=41,next_state=42,action=43,reward=44)

    f=[a,b,c,d,e]

    # 从f中随机抽取batch_size个数据

    t=random.sample(f,batch_size)

    print("随机抽取的batch_size个四元祖是：")

    for i in range(batch_size):

        print(t[i])

    print()

    # 将t进行解压操作

    print("将四元组进行解压后是：")

    print(*zip(*t))

    print()

    # 将t进行解压操作，再进行Transition转换

    # 将batch_size个四元组，转换成，四个元组，每个元组一共有batch_size项

    print("将四元组进行解压后再进行Transition转换后是：")

    batch=Transition(*zip(*t))

    print(batch)

输出结果：

随机抽取的batch_size个四元祖是：

Transition(state=21, next_state=22, action=23, reward=24)

Transition(state=11, next_state=12, action=13, reward=14)

Transition(state=41, next_state=42, action=43, reward=44)

将四元组进行解压后是：

(21, 11, 41) (22, 12, 42) (23, 13, 43) (24, 14, 44)

将四元组进行解压后再进行Transition转换后是：

Transition(state=(21, 11, 41), next_state=(22, 12, 42), action=(23, 13, 43), reward=(24, 14, 44))

Reinforcement Learning (DQN) 中经验池详细解释的更多相关文章

Android中时间戳的详细解释
Android中时间戳的详细解释: (1).定义: 时间戳就是根据当前系统时间生成的一组随机数字. (2).作用: 作为对数据唯一性的一种判断依据.避免了重复修改数据所带来的错误! (3).应用: ( ...
glibc中malloc的详细解释_转
glibc中的malloc实现: The main properties of the algorithms are:* For large (>= 512 bytes) requests, i ...
IOS 中得runloop 详细解释
1.Runloop基础知识- 1.1 字面意思 a 运行循环 b 跑圈 - 1.2 基本作用(作用重大) a 保持程序的持续运行(ios程序为什么能一直活着不会死) b 处理app中的各种事件(比如触 ...
机器学习之强化学习概览（Machine Learning for Humans: Reinforcement Learning）
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Le ...
Action的三种实现方式,struts.xml配置的详细解释及其简单执行过程(二)
勿以恶小而为之,勿以善小而不为--------------------------刘备劝诸君,多行善事积福报,莫作恶上一章简单介绍了Struts2的'两个蝴蝶飞,你好' (一),如果没有看过,请观 ...
强化学习中的经验回放（The Experience Replay in Reinforcement Learning）
一.Play it again: reactivation of waking experience and memory(Trends in Neurosciences 2010) SWR发放模式不 ...
强化学习(Reinforcement Learning)中的Q-Learning、DQN，面试看这篇就够了！
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
0927-转载：SSM:spring+springmvc+mybatis框架中的XML配置文件功能详细解释
这篇文章暂时只对框架中所要用到的配置文件进行解释说明,而且是针对注解形式的,框架运转的具体流程过两天再进行总结. spring+springmvc+mybatis框架中用到了三个XML配置文件:web ...

随机推荐

CYQ.Data 支持 DaMeng 达梦数据库
DaMeng 达梦数据库介绍: 达梦数据库(DMDB)是中国自主研发的关系型数据库管理系统,由达梦科技股份有限公司开发. 达梦数据库提供了企业级的数据库解决方案,广泛应用于金融.电信.政府.制造等行业 ...
Socket编程：htons()、htonl()、ntohs()、ntohl()
前言在计算机网络学到Socket编程的时候,自己在Linux下用C语言试验了一番,发现了这四个古怪的函数:htons().htonl().ntohs().ntohl(). 查阅资料得知,这是涉及到网 ...
[VueJsDev] 快速入门 - 开发前小知识
[VueJsDev] 目录列表 https://www.cnblogs.com/pengchenggang/p/17037320.html 开发前小知识 ::: details 目录目录开发前小知 ...
electron-vite 可用，本机软件开发环境搭建
electron-vite 可用,本机软件开发环境搭建 https://electron-vite.github.io/
Template String Converter - 字符串中加变量自动将单引号变换 - vscode插件
Template String Converter - 字符串中加变量自动将单引号变换 - vscode插件
魅族16T屏幕尺子
Nginx的负载均衡策略(4+2)
Nginx的负载均衡策略主要包括以下几种: 轮询(Round Robin):每个请求按时间顺序逐一分配到不同的后端服务器,如果后端服务器down掉,能自动剔除.这是Nginx的默认策略,适合服务器配置 ...
SpringBoot+内置Tomcat配置，参数调优，最大并发量，最大连接数
最近在研究这块的信息,记录下一些大神的文章: SpringBoot 最大连接数及最大并发数是多少???https://blog.csdn.net/weixin_44421461/article/det ...
springMVC+JDBC:分页示例
文章来源:http://liuzidong.iteye.com/blog/1067492 一环境:XP3+Oracle10g+MyEclipse6+(Tomcat)+JDK1.5 二工程相关图片: ...
Miracast技术详解（二）：RTSP协议
目录 RTSP概述抓包准备 WFD能力协商(Capability Negotiation) RTSP M1 Messages RTSP M2 Messages RTSP M3 Messages RT ...

Reinforcement Learning (DQN) 中经验池详细解释

Reinforcement Learning (DQN) 中经验池详细解释的更多相关文章

随机推荐

热门专题