PyBrain库的example之NFQ流程图分析

如下是测试程序。主要分析doEpisode和learn两个函数。

#!/usr/bin/env python

__author__ = 'Thomas Rueckstiess, ruecksti@in.tum.de'

from pybrain.rl.environments.cartpole import CartPoleEnvironment, DiscreteBalanceTask, CartPoleRenderer

from pybrain.rl.agents import LearningAgent

from pybrain.rl.experiments import EpisodicExperiment

from pybrain.rl.learners.valuebased import NFQ, ActionValueNetwork

#,ActionValueLSTMNetwork

from pybrain.rl.explorers import BoltzmannExplorer

from numpy import array, arange, meshgrid, pi, zeros, mean

from matplotlib import pyplot as plt

# switch this to True if you want to see the cart balancing the pole (slower)

render = False  #True #

plt.ion()

env = CartPoleEnvironment()

if render:

    renderer = CartPoleRenderer()

    env.setRenderer(renderer)

    renderer.start()

# balancetask. py inside only used 2 sensors, so here can't use(4,3), just use (2,3)

# there is a debug in vesion 0.30, now, new version 0.33 had correct it!!

module = ActionValueNetwork(4,3)  #(4,3) #  0.33 had correct it

#module = ActionValueLSTMNetwork(2,3)

task = DiscreteBalanceTask(env, 100)

learner = NFQ()

learner.explorer.epsilon = 0.4

agent = LearningAgent(module, learner)

testagent = LearningAgent(module, None)

experiment = EpisodicExperiment(task, agent)

def plotPerformance(values, fig):

    plt.figure(fig.number)

    plt.clf()

    plt.plot(values, 'o-')

    plt.gcf().canvas.draw()

performance = []

if not render:

    pf_fig = plt.figure()

#while (True):

for _ in xrange(60): #60

    # one learning step after one episode of world-interaction!!!

    experiment.doEpisodes(1)

    agent.learn(2)  # 5

    # test performance (these real-world experiences are not used for training)

    if render:

        env.delay = True

    experiment.agent = testagent

    #r = mean([sum(x) for x in experiment.doEpisodes(5)])

    env.delay = False

    testagent.reset()

    experiment.agent = agent

    #performance.append(r)

    print "update step", len(performance)

    #print "reward avg", r

    print "explorer epsilon", learner.explorer.epsilon

    print "num episodes", agent.history.getNumSequences()

    print "update step", len(performance)

if not render:

    plotPerformance(performance, pf_fig)

str = raw_input("please input sth to end!")

print "you put :",str

experiment.doEpisodes(1)

agent.learn(2)

图2的注释2部分，可以参考该博文深度强化学习初探 ,但是他文中的公式应该有点问题。应该把Qm+1改为Qm，进一步参考维基百科Q-learning ,如下所示。

Qm+1(st,at)=Qm(st,at)+α[rt+1+γQm(st+1,at+1)−Qm(st,at)]

推荐所用的画图软件process on

用起来挺方便的，在线用谷歌浏览器运行，用户体验挺佳，比visio2010快多了；
可以多用户协作；
目前有一个缺点就是一个框里面的字体格式必须是一样的，不可以修改一个框里面部分的文字的格式。有点类似PS的思想。

PyBrain库的example之NFQ流程图分析的更多相关文章

iOS 开源库系列 Aspects核心源码分析---面向切面编程之疯狂的 Aspects
Aspects的源码学习,我学到的有几下几点 Objective-C Runtime 理解OC的消息分发机制 KVO中的指针交换技术 Block 在内存中的数据结构 const 的修饰区别 block ...
线程高级应用-心得4-java5线程并发库介绍，及新技术案例分析
1. java5线程并发库新知识介绍 2．线程并发库案例分析 package com.itcast.family; import java.util.concurrent.ExecutorServi ...
Volley框架的流程图分析
接着上一篇Volley框架的使用,这一篇主要主要讲Volley框架运作的原理.主要使用流程图来叙述,简单的分析了整个流程的过程,具体的请参考源代码或者查看我上一篇在文章末尾添上的链接. 一 ...
MVP模式, 开源库mosby的使用及代码分析
Android中的构架模式一直是一个很hot的topic, 近年来Architecture components推出之后, MVVM异军突起, 风头正在逐渐盖过之前的MVP. 其实我觉得MVP还是有好 ...
HTTP请求库——axios源码阅读与分析
概述在前端开发过程中,我们经常会遇到需要发送异步请求的情况.而使用一个功能齐全,接口完善的HTTP请求库,能够在很大程度上减少我们的开发成本,提高我们的开发效率. axios是一个在近些年来非常火的 ...
如何实现一个HTTP请求库——axios源码阅读与分析 JavaScript
概述在前端开发过程中,我们经常会遇到需要发送异步请求的情况.而使用一个功能齐全,接口完善的HTTP请求库,能够在很大程度上减少我们的开发成本,提高我们的开发效率. axios是一个在近些年来非常火的 ...
【odoo】【知识杂谈】单一实例多库模式下定时任务的问题分析
欢迎转载,但需标注出处,谢谢! 背景: 有客户反应有个别模块下的定时任务没有正常执行,是否是新装的模块哪些有问题?排查后发现,客户是在一台服务器上跑着一个odoo容器,对应多个数据库.个别库的定时任务 ...
Android OpenGL库加载过程源码分析
Android系统采用OpenGL绘制3D图形,使用skia来绘制二维图形:OpenGL源码位于: frameworks/native/opengl frameworks/base/opengl 本文 ...
C/C++音视频库ffmpeg的数据包AVPacket分析
ffmpeg下载地址 http://www.ffmpeg.club/ AVPacket是ffmpeg用来存放编码后的视频帧数据,我们来分析一下这个结构体,先贴出ffmpeg3.2中AVPacket声明 ...

随机推荐

CUDA JPEG编码
基于英伟达的jpegNPP工程,分离实现独立的JPEG压缩. 由于原工程是直接把解码时的jpeg图片的信息直接作为编码时的信息,所以在做独立的JPEG编码时,需要自己来填充各种信息. 1.JPEG编码 ...
【Raspberry pi】cpu、内存等查看及扩展
使用树莓派时,需要在其系统中部署几个不同功能的程序系统,并涉及到数据库读写.串口读写.web访问等,使系统使用压力较大,在查看树莓派使用情况时也遇到些许问题. free命令 total used fr ...
angularJS----filter
angularJS过滤器过滤器(filter)正如其名,作用就是接收一个输入(隐式的接收数据源),通过某个规则进行处理,然后返回处理后的结果.主要用在数据的格式化上,例如获取一个数组中的子集,对数组 ...
bzoj3623
题解: 刚看到题目,还以为是2-sat 可是似乎不对啊... 然后就只能爆搜了看了网上的题解,woc还真是报搜然后就ac了当然爆搜还要随机化代码: #include<bits/stdc+ ...
halcon中你不知道的标定板细节
本人文着重阐述以下问题: halcon是否只能使用halcon专用的标定板? halcon标定板如何生成? halcon标定板如何摆放,拍照数量有无限制? halcon是否只能使用halcon专用的标 ...
MongoDB中MapReduce不同的写法，不同的结果
MapReduce有两种写法,也可以说mongodb所有的命令行都有两种写法. 但突然间发现MapReduce不同的写法会有不同的结果,接下来我们一起来看: 第一种:直接使用扩展属性. 1)emit函 ...
2017.10.24 A test error about ATE device
1 A misunderstands on E-mail Customer: The initial red blink just means theXXX unit has not yet s ...
微信测试帐号如何设置URL和Token，以及相关验证的原理
首先说明,本帮助文档是利用javaweb的Servlet来进行“接口配置信息配置信息”认证的. 在学习微信公众号开发的时候,读到填写服务器配置的帮助部分,总是不能理解为啥按照他的步骤做总是设置失败(吐 ...
创建Azure Function
azure function的用途在于运行一些逻辑简单的执行逻辑,比如batch job,定时任务,webhook等等.1. 创建azure function创建完毕后,进入app service,选 ...
boost::function和boost:bind取代虚函数
以boost::function和boost:bind取代虚函数这是一篇比较情绪化的blog,中心思想是"继承就像一条贼船,上去就下不来了",而借助boost::function ...

PyBrain库的example之NFQ流程图分析

PyBrain库的example之NFQ流程图分析的更多相关文章

随机推荐

热门专题