【RL系列】SARSA算法的基本结构

SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{\pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法，并在过程中熟练并总结SARSA算法的流程与基本结构。

强化学习中的统计方法（包括Monte Carlo，TD）在实现episode task时，无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局游戏，那么这个游戏有开始也有结束，统计方法是就是一局接着一局不停的在玩，然后从中总结出最优策略。Monte Carlo与TD的区别在于，Monte Carlo是玩完一局，总结一次，而TD算法是边玩边总结。所以这两层基本结构的外层是以游戏次数为循环，内层则是以游戏过程为循环。

SARSA作为TD算法下的on-policy control算法，只需边进行游戏边更新动作值函数和Policy即可，所以SARSA算法的内层可以由TD算法细化为如下结构：

NumOfGames = 500

while(index < NumOfGames)

    [Q, Policy] = PlayGame(Q, Policy);

end                            

function [Q, Policy] = PlayGame(Q, Policy)

while(1)

    % Begin Game

    while(1)

        Action = ChooseAction(Policy(State));

        NextState = State + Action + windy(State);

        try

            Grid(NextState) % Check for exception

        catch

            break;

        end

        NextAction = ChooseAction(Policy(NextState));

        Q(State, Action) = Q(State, Action) + alpha*(R + gamma*Q(NextState, NextAction)...

            - Q(State, Action));

        Policy = UpdatePolicy(Policy);

        State = NextState;

        if(State == Target)

            return;

        end

    end

end

【RL系列】SARSA算法的基本结构的更多相关文章

【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
【RL系列】从蒙特卡罗方法步入真正的强化学习
蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益. ...
【RL系列】Multi-Armed Bandit笔记——UCB策略与Gradient策略
本篇主要是为了记录UCB策略与Gradient策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读Reinforcement Learning: An Int ...
【RL系列】Multi-Armed Bandit笔记补充（一）
在此之前,请先阅读上一篇文章:[RL系列]Multi-Armed Bandit笔记本篇的主题就如标题所示,只是上一篇文章的补充,主要关注两道来自于Reinforcement Learning: An ...
openssl之EVP系列之7---信息摘要算法结构概述
openssl之EVP系列之7---信息摘要算法结构概述 ---依据openssl doc/crypto/EVP_DigestInit.pod翻译和自己的理解写成 (作者:Dragon ...
CRL快速开发框架系列教程十(导出对象结构)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
【RL系列】On-Policy与Off-Policy
强化学习大致上可分为两类,一类是Markov Decision Learning,另一类是与之相对的Model Free Learning 分为这两类是站在问题描述的角度上考虑的.同样在解决方案上存在 ...
增强学习--Sarsa算法
Sarsa算法实例代码 import numpy as np import random from collections import defaultdict from environment i ...

随机推荐

DDL-表的管理
一.创建表 ★create table [if not exists] 表名( 字段名字段类型 [约束], 字段名字段类型 [约束], ... 字段名字段类型 [约束] ...
Xcode 提交APP时遇到 “has one iOS Distribution certificate but its private key is not installed”
解决办法:登录Apple开发证书后台,把发布版证书.cer文件下载到本地,双击安装即可.若还没有设置发布证书文件,则创建一个后下载. Ref: https://blog.csdn.net/dingqk ...
vue.js 使用记录（1）
1,for循环 <li @click="toService(type, index)" v-for="(type,index) in typeList" ...
Xquery的初步学习（一次Lab作业的总结）
Task 1: Open countries.xml, compose the following XQueries: 1. Return the area of Mongolia. 2. Retur ...
MySQL案例03：（MyCAT报错） [ERROR][$_NIOREACTOR-3-RW] caught err: java.lang.OutOfM emoryError: Unable to acquire 131072 bytes of memory, got 0
上班坐下来没多久,接同事电话说有两台mysql服务器无法访问,其中这两台服务器是mycat服务器+MySQL服务器,具体处理过程如下: 一.错误信息错误信息01: :: ::, [INFO ][$_ ...
js节点操作实例
写了一个简单的小例子来引用js实例 1. 初步节点操作: 2.兼容性节点操作: 3.节点的类型,名字: 4.使用setAttribute设置属性 5.节点复制操作: 6.删除和替换节点如有错误,还望 ...
JAVA 设计模式之原型模式
目录 JAVA 设计模式之原型模式简介 Java实现 1.浅拷贝 2.深拷贝优缺点说明 1.优点 2.缺点 JAVA 设计模式之原型模式简介原型模式是六种创建型设计模式之一,主要应用于创建相同 ...
一步一步学习大数据：Hadoop 生态系统与场景
Hadoop概要到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有 ...
Executors 挖坑
Executors 挖坑线程频繁的创建销毁是有代价的,所以Java为我们提供了线程池线程池构造方法很多我们一般使用Executors的工厂方法: public static ExecutorSe ...
20155301 2016-2017-2 《Java程序设计》第8周学习总结
20155301 2016-2017-2 <Java程序设计>第8周学习总结教材学习内容总结 1.java.util.logging包提供了日志功能相关类与接口.使用日志的起点是logg ...

【RL系列】SARSA算法的基本结构

【RL系列】SARSA算法的基本结构的更多相关文章

随机推荐

热门专题