强化学习8-时序差分控制离线算法Q-Learning

Q-Learning和Sarsa一样是基于时序差分的控制算法，那两者有什么区别呢？

这里已经必须引入新的概念

时序差分控制算法的分类：在线和离线

在线控制算法：一直使用一个策略选择动作和更新价值函数，如Sarsa

离线控制算法：两个策略，一个选择新的动作，一个更新价值函数，如Q-Learning

Q-Learning简介

在S下基于ε-贪心策略选择动作A，执行A，获得奖励R，并进入下一个状态S’，

接下来如果是Sarsa，将继续基于ε-贪心策略选择动作A’，利用Q(S',A')更新价值函数，并在下一轮执行A’，这就是在线算法，学到什么就执行什么

但是Q-Learning则不同，它将基于贪心策略选择动作A’，利用Q(S',A')更新价值函数，但是在下一轮并不执行A'，而是又基于ε-贪心策略选择动作，这就是离线算法，学到什么不一定执行什么

价值更新方式　　Q(S,A)=Q(S,A)+α(R+γmax_aQ(S′,a)−Q(S,A))

对比Sarsa　　　 Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A))

对比MC　　　　 Q(S,A)=Q(S,A)+(1/N)(G_t−Q(S,A))

在更新q值时，选择什么就执行什么，

在选择动作时，sarsa选择什么就执行什么，Q-Learning选择什么不一定执行什么

Q-Learning算法描述

输入：{S A R γ α ε}，迭代轮数T

输出：所有的状态和动作对应的价值Q

1. 随机初始化所有的状态和动作对应的价值Q. 对于终止状态其Q值初始化为0.

2. for i from 1 to T，进行迭代。

　　a) 初始化S为当前状态序列的第一个状态。

　　b) 用 ε-贪婪法在当前状态S选择动作A

　　c) 在状态S执行当前动作A，得到新状态S’和奖励R

　　d) 更新价值函数Q(S,A)=Q(S,A)+α(R+γmax_aQ(S′,a)−Q(S,A))

　　e) S=S′

　　f) 如果S'是终止状态，当前轮迭代完毕，否则跳转到步骤b)

Q-Learning解决Windy GridWorld

for i in range(10000):

    # 10000 轮

    while True:

        maxq0, r0, stat_0, action0 = choose(start)              # e 贪心

        if stat_0 == end:

            start = [3, 0]

            break

        maxq, r, stat_1, action = choose_max(stat_0)            # 贪心

        q[get_q_x(start), actions.index(action0)] += alpha * (r0 + maxq - q[get_q_x(start), actions.index(action0)])

        start = stat_0

结果同Sarsa

Sarsa 与 Q-Learning 的比较

Sarsa在学习最优策略的同时还在做探索，而Q-Learning直接学习最优策略

这使得

1. Sarsa在训练时，为了保证收敛，需要设定规则，逐渐减小探索率，Q-Learning则不需要

2. Q-Learning直接学习的最优策略，而最优策略是基于当前数据的，这等于放弃了其他更好的机会，可能收敛于局部最优，Q-Learning的强化版Deep Q-Learning也有这个问题

3. Sarsa属于保守型，Q-Learning属于激进派

　　// 好比传销的洗脑，骗子告诉你今天干得好能挣1000块钱，明天干得好能挣5000块钱，但是如果不好好干，可能只有100块，Sarsa听了，觉得干好了才能多挣钱，万一干不好，哎，慢慢来吧，而Q-Learning听了，一算，我今天挣1000，明天5000，发财了，于是立即成为忠实的传销分子，这就是急于求成，容易出错

　　// 对应到算法上，就是Sarsa训练的模型比较平滑，而Q-Learning陡峭，可能局部最优

4. 在实际应用中，如果在模拟环境中训练模型，推荐Q-Learning，如果在真实环境中训练模型，推荐Sarsa

总结

Q-Learning和Sarsa一样，很灵活，但是不适合解决大规模问题

强化学习8-时序差分控制离线算法Q-Learning的更多相关文章

强化学习4-时序差分TD
之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s ...
强化学习中REIINFORCE算法和AC算法在算法理论和实际代码设计中的区别
背景就不介绍了,REINFORCE算法和AC算法是强化学习中基于策略这类的基础算法,这两个算法的算法描述(伪代码)参见Sutton的reinforcement introduction(2nd). A ...
强化学习（七）时序差分离线控制算法Q-Learning
在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于时序差分离线控制算法,主要是经典的Q-Learn ...
【转载】强化学习（七）时序差分离线控制算法Q-Learning
原文地址: https://www.cnblogs.com/pinard/p/9669263.html ------------------------------------------------ ...
强化学习（五）用时序差分法（TD）求解
在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列.如果我 ...
【转】【强化学习】Deep Q Network(DQN)算法详解
原文地址:https://blog.csdn.net/qq_30615903/article/details/80744083 DQN(Deep Q-Learning)是将深度学习deeplearni ...
强化学习算法DQN
1 DQN的引入由于q_learning算法是一直更新一张q_table,在场景复杂的情况下,q_table就会大到内存处理的极限,而且在当时深度学习的火热,有人就会想到能不能将从深度学习中借鉴方法 ...
强化学习（四）用蒙特卡罗法（MC）求解
在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法.但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态.导致对 ...
【转载】强化学习（四）用蒙特卡罗法（MC）求解
原文地址: https://www.cnblogs.com/pinard/p/9492980.html ------------------------------------------------ ...

随机推荐

PHP操作MySQL数据库--PHP的应用
一.Apache服务器的安装 <1>安装版(计算机相关专业所用软件---百度云链接下载)-直接install<2>非安装版(https://www.apachehaus.com ...
LeetCode--004--寻找两个有序数组的中位数（java）
转自https://blog.csdn.net/chen_xinjia/article/details/69258706 其中,N1=4,N2=6,size=4+6=10. 1,现在有的是两个已经排好 ...
p1470 Longest Prefix
原本就想到dp,可是是我的思路是在串的各个位置都遍历一次set,看dp[i-st[k]]是否为1且前length(st[k])是st[k].这样200000*200*10会超时.更好的办法是在i位取前 ...
bzoj1801: [Ahoi2009]chess 中国象棋 dp
题意:在N行M列的棋盘上,放若干个炮可以是0个,使得没有任何一个炮可以攻击另一个炮. 请问有多少种放置方法,中国像棋中炮的行走方式大家应该很清楚吧. 题解:dp[i][j][k]表示到了第i行,有j列 ...
6月17 ThinkPHP连接数据库------数据的修改及删除
1.数据修改操作 save() 实现数据修改,返回受影响的记录条数具体有两种方式实现数据修改,与添加类似(数组.AR方式) 1.数组方式 a) $goods = D(“Goods” ...
mysql排序的中文首字母排序和自定义排序
select * FROM organ_new where city_code = 'SZ0755' and organ_type = 'H' and state = '1' ORDER BY FIE ...
sqlserver创建计算列转
转 http://www.cnblogs.com/lgx5/p/6017874.html 表中其它列的计算值创建的sql create table table1 ( number decimal(1 ...
commonJS,常用js工具方法
说明:平时项目用到的一些常见过滤方法,有些是vue过滤器,稍微修改下吧,我就不改了. js四舍五入不准确的解决(重写方法): Number.prototype.toFixed = function(l ...
Oracle查询前几条数据的方法
在Oracle中实现select top N:由于Oracle不支持select top 语句,所以在Oracle中经常是用order by 跟rownum的组合来实现select top n的查询. ...
Visual Studio 类模板的修改
总共有三个步骤: No1:找到类文件模板路径我的安装盘在D盘 visual studio 2010: D:\Program Files (x86)\Microsoft Visual Studio 1 ...

强化学习8-时序差分控制离线算法Q-Learning

强化学习8-时序差分控制离线算法Q-Learning的更多相关文章

随机推荐

热门专题