上篇文章讲到Q-learning, Sarsa与Q-learning的在决策上是完全相同的,不同之处在于学习的方式上

这次我们用openai gym的Taxi来做演示

Taxi是一个出租车的游戏,把顾客送到目的地+20分,每走一步-1分,如果在路上把乘客赶下车的话扣10分

简要

Sarsa是一种在线学习算法,也就是on-polic,Sarsa在每次更新算法时都是基于确定的action,而Q-learning还没有确定

Sarsa相对比较保守,他的每一步行动都是基于下一个Q(s',a')来完成的

我们来看Sarsa的算法部分

是不是看起来很眼熟,没错和Q-learning的区别很小

Q-learning每次都时action'都选择最大化,而Sarsa每次更新都会选择下一个action,在我们对代码中对应的代码也就是

obervation_, reward, done, info=env.step(action)
action_=choise(obervation_)

游戏开始

首先我们初始化游戏环境

import gym
import numpy as np env=gym.make('Taxi-v2')
env.seed(1995) MAX_STEP=env.spec.timestep_limit
ALPHA=0.01
EPS=1
GAMMA=0.8
TRACE_DACAY=0.9
q_table=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)
eligibility_trace=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)

对没错,Sarsa还是需要Q表来保存经验的,细心的小伙伴们一定发现我们多了一个eligibility_trace的变量,这个是做什么用的呢,这个是用来保存每个回合的每一步的,在新的回合开始后就会清零

Sarsa的决策上还是和Q-learning相同的

def choise(obervation):
if np.random.uniform()<EPS:
action=env.action_space.sample()
else:
action=np.argmax(q_table[obervation])
return action

下面是我们的核心部分,就是学习啦^_^

#这里是Q-learning的学习更新部分

def learn(state,action,reward,obervation_):
q_table[state][action]+=ALPHA*(reward+GAMMA*(max(q_table[obervation_])-q_table[state,action]))

#这里是Sarsa的学习更新部分

def learn(state,action,reward,obervation_,action_):
global q_table,eligibility_trace
error=reward + GAMMA * q_table[obervation_,action_] - q_table[state, action]
eligibility_trace[state]*=0
eligibility_trace[state][action]=1 q_table+=ALPHA*error*eligibility_trace
eligibility_trace*=GAMMA*TRACE_DACAY

哒当,我用红线标示出来了,聪明的你一定发现了不同对吧

青色标示出来的代表的意思是没经历一轮,我们让他+1证明这是获得reward中不可获取的一步

最后一行

eligibility_trace*=GAMMA*TRACE_DACAY

随着时间来衰减eligibility_trace的值,离获取reward越远的步,他的必要性也就越小

GAME OVER

让我们大干一场吧

下面是所有的代码,小伙伴们快来运行把

import gym
import numpy as np env=gym.make('Taxi-v2')
env.seed(1995) MAX_STEP=env.spec.timestep_limit
ALPHA=0.01
EPS=1
GAMMA=0.8
TRACE_DACAY=0.9
q_table=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32)
eligibility_trace=np.zeros([env.observation_space.n,env.action_space.n],dtype=np.float32) def choise(obervation):
if np.random.uniform()<EPS:
action=env.action_space.sample()
else:
action=np.argmax(q_table[obervation])
return action def learn(state,action,reward,obervation_,action_):
global q_table,eligibility_trace
error=reward + GAMMA * q_table[obervation_,action_] - q_table[state, action]
eligibility_trace[state]*=0
eligibility_trace[state][action]=1 q_table+=ALPHA*error*eligibility_trace
eligibility_trace*=GAMMA*TRACE_DACAY SCORE=0
for exp in xrange(50000):
obervation=env.reset()
EPS-= 0.001 action=choise(obervation)
eligibility_trace*=0 for i in xrange(MAX_STEP):
# env.render()
obervation_, reward, done, info=env.step(action)
action_=choise(obervation_) learn(obervation,action,reward,obervation_,action_) obervation=obervation_
action=action_ SCORE+=reward
if done:
break if exp % 1000 == 0:
print 'esp,score (%d,%d)' % (exp, SCORE)
SCORE = 0 print 'fenshu is %d'%SCORE

欢迎大家一起来学习^_^

最后附上一幅结果图

效率明显提高了^_^

强化学习之Sarsa (时间差分学习)的更多相关文章

  1. 增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)

    接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...

  2. 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

    强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记: Reinforcement Learning: An Introductio ...

  3. 【Todo】【转载】深度学习&神经网络 科普及八卦 学习笔记 & GPU & SIMD

    上一篇文章提到了数据挖掘.机器学习.深度学习的区别:http://www.cnblogs.com/charlesblc/p/6159355.html 深度学习具体的内容可以看这里: 参考了这篇文章:h ...

  4. 蓝牙芯片NRF51822入门学习1:时间管理

    前言 之前辞职找工作的时候发现,很多公司希望招聘蓝牙技术方面的人才,所以干脆丢开LWIP静下心来学习蓝牙技术.原本以为一两星期能基本学会的,谁知道所选的蓝牙芯片nrf51822是个坑货,坑了我一个月. ...

  5. "做中学"之“极客时间”课程学习指导

    目录 "做中学"之"极客时间"课程学习指导 所有课程都可以选的课程 Java程序设计 移动平台开发 网络攻防实践 信息安全系统设计基础 信息安全专业导论 极客时 ...

  6. JDK1.8日期时间库学习

    这周在阅读<阿里巴巴Java开发手册>时,在并发处理一节的日期处理中,其强调SimpleDateFormat 是线程不安全的类,一般不要定义为 static 变量,如果 定义为 stati ...

  7. Python - 记录我开始学习Python的时间节点

    记录我开始学习Python的时间节点 2019-09-22 从明天开始我要开始学习Python了,坚持学习.坚持写博客,慢慢积累. 结合实例项目,最好能把目前在做的项目用Python实现. 加油!

  8. SIGAI深度学习第四集 深度学习简介

    讲授机器学习面临的挑战.人工特征的局限性.为什么选择神经网络.深度学习的诞生和发展.典型的网络结构.深度学习在机器视觉.语音识别.自然语言处理.推荐系统中的应用 大纲: 机器学习面临的挑战 特征工程的 ...

  9. ElasticSearch 5学习(7)——分布式集群学习分享2

    前面主要学习了ElasticSearch分布式集群的存储过程中集群.节点和分片的知识(ElasticSearch 5学习(6)--分布式集群学习分享1),下面主要分享应对故障的一些实践. 应对故障 前 ...

随机推荐

  1. Javascript实现简单的下拉二级菜单

    在线演示;http://jsfiddle.net/Web_Code/ThhbG/embedded/result/ <span style="font-size:14px;"& ...

  2. HLJU 1223: 寻找区间和 (交替推进法)

    1223: 寻找区间和 Time Limit: 3 Sec  Memory Limit: 128 MB Submit: 13  Solved: 4 [Submit][Status][pid=1223& ...

  3. C - The C Answer (2nd Edition) - Exercise 1-7

    /* Write a program to print the value of EOF. */ #include <stdio.h> main() { printf("EOF ...

  4. mysql默认安装目录说明

    MySQL安装完成后不象SQL Server默认安装在一个目录,它的数据库文件.配置文件和命令文件分别在不同的目录,了解这些目录非常重要,尤其对于Linux的初学者,因为 Linux本身的目录结构就比 ...

  5. java类的继承的一些细节

    类的继承是java面向对象体系的一个重要方面(封装.继承.多态),对于java类的继承,需要注意如下细节. 1.构造函数. 如果一个类没有任何构造函数,系统会默认分配一个无参的构造函数给它,这个构造函 ...

  6. Shell编程实践之批量安装JDK

    实验环境 只有两台机子,一台虚拟机192.168.1.200,另外一台物理机192.168.1.201. 目标 执行一个shell脚本,给这两台机子自动安装jdk. 实验步骤 1.自动设置ssh免密码 ...

  7. ERR Unsupported CONFIG parameter: notify-keyspace-events; nested exception is redis.clients.jedis.exceptions.JedisDataException

    异常信息 时间:2017-04-05 15:53:57,361 - 级别:[ WARN] - 消息: [other] The web application [ROOT] appears to hav ...

  8. Visual Studio Code 快捷键大全(Windows)

    Visual Studio Code 是一款优秀的编辑器,非常适合编写 TS 以及 React .最近在学习 AngularJs 2,开始使用 VSCode,特意整理翻译了一下官网的快捷键.因为已经习 ...

  9. Akka Cluster简介与基本环境搭建

      akka集群是高容错.去中心化.不存在单点故障以及不存在单点瓶颈的集群.它使用gossip协议通信以及具备故障自动检测功能. Gossip收敛   集群中每一个节点被其他节点监督(默认的最大数量为 ...

  10. xml文件生成方式一(字符串拼接,将多实体类对象写入xml文件)

    1.xml文件生成,拼接字符串使用StringBuffer或StringBuilder 2.拼接好后写入文件即可,将多个实体类写入xml文件 3.这种方式比较简单,但是操作也比较麻烦 4.下面是我的代 ...