简要

Sarsa是一种在线学习算法，也就是on-polic，Sarsa在每次更新算法时都是基于确定的action,而Q-learning还没有确定

Sarsa相对比较保守，他的每一步行动都是基于下一个Q(s',a')来完成的

我们来看Sarsa的算法部分

是不是看起来很眼熟，没错和Q-learning的区别很小

Q-learning每次都时action'都选择最大化，而Sarsa每次更新都会选择下一个action，在我们对代码中对应的代码也就是

obervation_, reward, done, info=env.step(action)

action_=choise(obervation_)

游戏开始

首先我们初始化游戏环境

import gym

import numpy as np

env=gym.make('Taxi-v2')

env.seed(1995)

MAX_STEP=env.spec.timestep_limit

ALPHA=0.01

EPS=1

GAMMA=0.8
TRACE_DACAY=0.9
q_table=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)
eligibility_trace=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)

对没错，Sarsa还是需要Q表来保存经验的,细心的小伙伴们一定发现我们多了一个eligibility_trace的变量，这个是做什么用的呢，这个是用来保存每个回合的每一步的，在新的回合开始后就会清零

Sarsa的决策上还是和Q-learning相同的

def choise(obervation):

    if np.random.uniform()<EPS:

        action=env.action_space.sample()

    else:

        action=np.argmax(q_table[obervation])

    return action

下面是我们的核心部分，就是学习啦^_^

#这里是Q-learning的学习更新部分

def learn(state,action,reward,obervation_):

    q_table[state][action]+=ALPHA*(reward+GAMMA*(max(q_table[obervation_])-q_table[state,action]))

#这里是Sarsa的学习更新部分

def learn(state,action,reward,obervation_,action_):

    global q_table,eligibility_trace

    error=reward + GAMMA * q_table[obervation_,action_] - q_table[state, action]

    eligibility_trace[state]*=0

    eligibility_trace[state][action]=1

    q_table+=ALPHA*error*eligibility_trace

    eligibility_trace*=GAMMA*TRACE_DACAY

哒当，我用红线标示出来了，聪明的你一定发现了不同对吧

青色标示出来的代表的意思是没经历一轮，我们让他+1证明这是获得reward中不可获取的一步

最后一行

eligibility_trace*=GAMMA*TRACE_DACAY

随着时间来衰减eligibility_trace的值，离获取reward越远的步，他的必要性也就越小

GAME OVER

让我们大干一场吧

下面是所有的代码，小伙伴们快来运行把

import gym

import numpy as np

env=gym.make('Taxi-v2')

env.seed(1995)

MAX_STEP=env.spec.timestep_limit

ALPHA=0.01

EPS=1

GAMMA=0.8

TRACE_DACAY=0.9

q_table=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)

eligibility_trace=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)

def choise(obervation):

    if np.random.uniform()<EPS:

        action=env.action_space.sample()

    else:

        action=np.argmax(q_table[obervation])

    return action

def learn(state,action,reward,obervation_,action_):

    global q_table,eligibility_trace

    error=reward + GAMMA * q_table[obervation_,action_] - q_table[state, action]

    eligibility_trace[state]*=0

    eligibility_trace[state][action]=1

    q_table+=ALPHA*error*eligibility_trace

    eligibility_trace*=GAMMA*TRACE_DACAY

SCORE=0

for exp in xrange(50000):

    obervation=env.reset()

    EPS-= 0.001

    action=choise(obervation)

    eligibility_trace*=0

    for i in xrange(MAX_STEP):

        # env.render()

        obervation_, reward, done, info=env.step(action)

        action_=choise(obervation_)

        learn(obervation,action,reward,obervation_,action_)

        obervation=obervation_

        action=action_

        SCORE+=reward

        if done:

            break

    if exp % 1000 == 0:

        print 'esp,score (%d,%d)' % (exp, SCORE)

        SCORE = 0

print 'fenshu is %d'%SCORE

欢迎大家一起来学习^_^

最后附上一幅结果图

效率明显提高了^_^

强化学习之Sarsa （时间差分学习）的更多相关文章

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...
【Todo】【转载】深度学习&神经网络科普及八卦学习笔记 & GPU & SIMD
上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...
蓝牙芯片NRF51822入门学习1：时间管理
前言之前辞职找工作的时候发现,很多公司希望招聘蓝牙技术方面的人才,所以干脆丢开LWIP静下心来学习蓝牙技术.原本以为一两星期能基本学会的,谁知道所选的蓝牙芯片nrf51822是个坑货,坑了我一个月. ...
"做中学"之“极客时间”课程学习指导
目录 "做中学"之"极客时间"课程学习指导所有课程都可以选的课程 Java程序设计移动平台开发网络攻防实践信息安全系统设计基础信息安全专业导论极客时 ...
JDK1.8日期时间库学习
这周在阅读<阿里巴巴Java开发手册>时,在并发处理一节的日期处理中,其强调SimpleDateFormat 是线程不安全的类,一般不要定义为 static 变量,如果定义为 stati ...
Python - 记录我开始学习Python的时间节点
记录我开始学习Python的时间节点 2019-09-22 从明天开始我要开始学习Python了,坚持学习.坚持写博客,慢慢积累. 结合实例项目,最好能把目前在做的项目用Python实现. 加油!
SIGAI深度学习第四集深度学习简介
讲授机器学习面临的挑战.人工特征的局限性.为什么选择神经网络.深度学习的诞生和发展.典型的网络结构.深度学习在机器视觉.语音识别.自然语言处理.推荐系统中的应用大纲: 机器学习面临的挑战特征工程的 ...
ElasticSearch 5学习(7)——分布式集群学习分享2
前面主要学习了ElasticSearch分布式集群的存储过程中集群.节点和分片的知识(ElasticSearch 5学习(6)--分布式集群学习分享1),下面主要分享应对故障的一些实践. 应对故障前 ...

随机推荐

SQL-PL/SQL基础
SQL的4GL,对流程控制的支持不够,Oracle的PL/SQL是3GL.加入了流程控制.变量等支持能够在数据库层面上进行程序的设计. PL/SQL的特点 1.支持事务控制和SQL. 2.数据类型在S ...
阿里云部署Docker(4)----容器的使用
通过上一节的学习,我们知道怎样执行docker容器,我们执行了一个普通的,一个后台的,我们还学习了几个指令: docker ps - Lists containers. docker logs - S ...
overridePendingTransition介绍
Activity的切换动画指的是从一个activity跳转到另外一个activity时的动画它包含两个部分: 一部分是第一个activity退出时的动画: 另外一部分时第二个activity进入时的 ...
Python2下载单张图片和爬取网页图片
一.需求分析 1.知道图片的url地址,将图片下载到本地. 2.知道网页地址,将图片列表中的图片全部下载到本地. 二.准备工作 1.开发系统:win7 64位. 2.开发环境:python2.7. 3 ...
知乎APP---案例分析
产品: 这次我选择用来做案例分析的是--知乎. 知乎可以说是中文互联网最大的知识社交平台,拥有认真.专业和友善的独特气氛,分享用户间彼此的专业知识.经验和见解.因而在日常生活中,我用知乎搜索答案的概率 ...
Redis的那些最常见面试问题
随笔:经过长达一周的奔波和面试,电话面试,回首今天终于成功的入职了,总共面试了大概10家公司,包括阿里,京东,IBM等等,京东技术过了,学历因为非统招就被pass了,阿里面了2次电话面试就没下文了,估 ...
c#值类型与引用类型区别
值类型对象的两种表示方式:未装箱和已装箱,引用类型总是处于已装箱值类型从System.ValueType派生.该类型提供了与System.Object相同方法,但System.ValueType重写 ...
【java设计模式】【创建模式Creational Pattern】简单工厂模式Simple Factory Pattern（静态工厂方法模式Static Factory Method Pattern）
public class Test { public static void main(String[] args){ try{ Factory.factory("A").doSt ...
ABP .Net Core Entity Framework迁移使用MySql数据库
一.迁移说明 ABP模板项目Entity Framework Core默认使用的是Sql Server,也很容易将数据库迁移到MySQL,步骤如下. 二.迁移MySQL步骤 1. 下载项目请到 ht ...
bzoj 4446: [Scoi2015]小凸玩密室
Description 小凸和小方相约玩密室逃脱,这个密室是一棵有n个节点的完全二叉树,每个节点有一个灯泡.点亮所有灯泡即可逃出密室.每个灯泡有个权值Ai,每条边也有个权值bi.点亮第1个灯泡不需要 ...

强化学习之Sarsa （时间差分学习）

简要

游戏开始

GAME OVER

强化学习之Sarsa （时间差分学习）的更多相关文章

随机推荐

热门专题