几句话总结一个算法之Q-Learning与Sarsa

与Policy Gradients的不同之处在于，这两个算法评估某个状态s执行某个动作a的期望奖励，即Q(s,a)

Q(s,a) 有两种方法计算方法，第一种直接查表或者模型预估，Q(s, a) = checkTable(s, a)，这个在训练初期是非常不准确的；第二种方法是通过"一步蒙特卡洛"方法获取，假设执行a后状态是s'，且s'执行了动作了a'，Q’(s, a) = 当前状态奖励 + 衰减系数 * Q(s',a')，近似于一个动态规划问题，当游戏结束，就只有当前状态奖励。但与动态规划不同的是，这个递归关系不会等到游戏结束之后才更新，而是走一步更新一次。

Q(s, a)表示了模型根据历史数据的预测奖励，而Q'(s,a)表示对当前行动的预测奖励。一个好的模型，Q(s,a) 和 Q'(s,a)应该尽量接近，同时又为了迭代的稳定性，新的Q(s, a) 更新为老Q(s,a)和Q'(s,a)的一个加权平均值（学习率控制）。

因为这种方法预估的是奖励值而不是概率分布，所以一般采用奖励最大的动作，这个训练带来了问题，因为在某些状态下可能永远只选择某个动作，要解决这个方法，需要引入epsilon-greedy，即以大概率选择最大奖励动作，保证探索的聚焦性，同时以小概率随机选择某个动作，保证探索空间完备性。

由于引入了epsilon-greedy，在Q’(s, a) 迭代公式里，s'该选择哪个动作a‘来计算出现两种选择，是选择最大奖励动作，还是和当前s的选择动作的策略保持一致以小概率随机选择某个动作？

如果在s’选择最大奖励动作的贪心策略，就是Q learning，这个叫异策略(off-policy)，如果是和当前s的选择动作的策略保持一致，就是 Sarsa，这种也叫同策略(on-policy)

具体理解的例子可以参考：http://mnemstudio.org/path-finding-q-learning-tutorial.htm

几句话总结一个算法之Q-Learning与Sarsa的更多相关文章

几句话总结一个算法之DQN
DQN利用深度学习对Q-learning的一个扩展,回顾上篇文章,Q-learning的核心在于Q(s,a)的建模.如果状态s非常复杂,很难通过一张表来存储所有的状态. 深度学习正好可以自动提取s的特 ...
几句话总结一个算法之RNN、LSTM和GRU
RNN 一般神经网络隐层的计算是h=g(w * x),其中g是激活函数,相比于一般神经网络,RNN需要考虑之前序列的信息,因此它的隐藏h的计算除了当前输入还要考虑上一个状态的隐藏,h=g(w*x+w' ...
几句话总结一个算法之CTR预估模型
背景假设现在有个商品点击预测的任务,有用户端特征性别.年龄.消费力等,商品侧特征价格.销量等,样本为0或者1,现在对特征进行one hot encode,如性别特征用二维表示,男为[1,0],女为[ ...
几句话总结一个算法之Policy Gradients
强化学习与监督学习的区别在于,监督学习的每条样本都有一个独立的label,而强化学习的奖励(label)是有延后性,往往需要等这个回合结束才知道输赢 Policy Gradients(PG)计算某个状 ...
我和小美的撸码日记(3)之中的一个句话搞定MVC表单页数据绑定与提交
另外献上在<线体验Demo地址>希望大家也能从中得到一些启示. 地址:http://121.40.148.178:8080/ . username:guest,password:12345 ...
使用yii的layout，加入<?php echo $content; ?>这句话时，它会自动在子页面上面添加一个div包裹
使用yii的layout,加入<?php echo $content; ?>这句话时,它会自动在子页面上面添加一个div包裹,而且div的id命名为id=content,这个和已有id重复 ...
神级程序员通过两句话带你完全掌握Python最难知识点——元类！
千万不要被所谓"元类是99%的python程序员不会用到的特性"这类的说辞吓住.因为每个中国人,都是天生的元类使用者学懂元类,你只需要知道两句话: 道生一,一生二,二生三,三生 ...
NOIP前必须记住的30句话
NOIP前必须记住的30句话 1.比赛前一天晚上请准备好你的各种证件,事先查好去往考场的路线2.比赛之前请先调整你的屏幕分辨率到你喜欢的大小3.比赛之前请把编译器的字体调为你平时惯用的字体,尤其是注意 ...
两句话掌握python最难知识点——元类
千万不要被所谓“元类是99%的python程序员不会用到的特性”这类的说辞吓住.因为每个中国人,都是天生的元类使用者学懂元类,你只需要知道两句话: 道生一,一生二,二生三,三生万物我是谁?我从哪来 ...

随机推荐

互联网基础知识------OSI七层网络模型梗概
OSI七层模型七层网络结构: 应用层.表示层.会话层.传输层.网络层.数据链路层.物理层一般也作五层应用层.传输层.网络层.数据链路层.物理层(实体层) 引申问题:TCP/IP协议与http协议 ...
.NET[C#]使用LINQ从List<T>集合中获取最后N条数据记录的方法有哪些？
https://codedefault.com/2018/using-linq-to-get-the-last-n-elements-of-a-collection-in-csharp-applica ...
2019-11-29-C#-性能分析-反射-VS-配置文件-VS-预编译
原文:2019-11-29-C#-性能分析-反射-VS-配置文件-VS-预编译 title author date CreateTime categories C# 性能分析反射 VS 配置文件 V ...
layui提示框事件
使用layui提示框的时候遇到个问题,点击“确定”“取消”之类的按钮会执行里面的方法,但点击×就不会执行,所以在添加数据的时候出现个BUG,就是保存数据后点击弹出提示框的×,继续保存,如此循环,就可以 ...
C#利用newtonsoft.json读取.so配置文件内容
今天花了点时间来使用 C#读取json文件 ,文件后缀为 .so文件 ,也是基于文件流的形式获取对象 ,然后解析; 之所以尝试使用 json读取 ,是因为其配置文件的格式更为友好和方便,直 ...
程序游戏推荐(C语言贪吃蛇，python天天酷跑(需要安装pygame)，js是狠人就坚持30s)
下面是下载位置,我把他们上传到我的文件下了. C语言贪吃蛇:https://files.cnblogs.com/files/ITXiaoAng/%E8%B4%AA%E5%90%83%E8%9B%87. ...
如何简单使用tensorboard展示(一)
我使用tensorboard中的graph做了展示,至于其它功能可以类推,其代码如下: import numpy as npimport tensorflow as tf x_img = np.arr ...
QTableWidget右键菜单
#ifndef MAINWINDOW_H #define MAINWINDOW_H #include <QMainWindow> namespace Ui { class MainWind ...
find、locate、whereis、which和type
1. find $ find . -name '*' 2. locate 很快速的搜寻档案系统内是否有指定的档案,比find要快很多其方法是先建立一个包括系统内所有档案名称及路径的资料库,之后当寻找 ...
Jmeter测试技巧
最近在用Jmeter做接口测试,使用中整理了一些组件的使用技巧. 一. 用户定义的变量都是全局变量,无论是否在某个线程组或请求内,都是采用最新赋值的内容二. 固定定时器在单个请求内是让本请求线程 ...

几句话总结一个算法之Q-Learning与Sarsa

几句话总结一个算法之Q-Learning与Sarsa的更多相关文章

随机推荐

热门专题