强化学习--QLearning

张乐乐章 2024-10-10 00:27:59 原文

1.概述：

QLearning基于值函数的方法，不同与policy gradient的方法，Qlearning是预测值函数，通过值函数来选择

值函数最大的action，而policy gradient直接预测出action。

Q-learning 是一种基于值函数估计的强化学习方法，Policy Gradient是一种策略搜索强化学习方法。

两者是求解强化学习问题的不同方法，如果熟悉监督学习，

前者可类比Naive Bayes——通过估计后验概率来得到预测，

后者可类比SVM——不估计后验概率而直接优化学习目标。

目标就是选择出最佳action。

2一些定义

2.1值函数

Given an actor π, it evaluates how good the actor is

有2种值函数，V(S) 、Q(s,a).

2.1.1 V(S)

有2种衡量的方法：

MC方法只能等玩完一个episode才能进行统计评价，效率比较低。

TD方法可以每玩一步就更新一次。

mc与td对比，mc需要估计的是一个episode的值函数，方差比较大，而td是与时间相关的，只有r是需要估计的，方差比较小。

下面看一下例子：

V(Sb)=6/8=1

MC: V(Sa)=0/2=0

TD: V(Sa)=V(Sb)+0=3/4

2.1.2 Q(s,a）

我们可以评估，在当前状态s，采取行动a，在接下来的游戏中获得得奖励累计和的期望为Q(s,a)。但在接下来的游戏中，

不一定采取行动a,而是采取Q值最大的行动。

下图中1，无论采取那个行动都无所谓，因为离球还很远，而图2离球比较近了，我们需要向上接到球，接下来游戏才能获得奖励。

3 怎么用

我们利用PI去与环境互动，得到一些互动数据，通过TDorMC的方法去更新Q（s,a）的参数，

根据更新后的Q，我们选择一个更好的pi_new,然后把pi更新为pi_new，再去与环境互动。

tips:pi_new 是完全取决于Q，没有新参数。

3.1 target network

3.2 Epsilon Greedy

如果我们只选择Q值最大的action，如果碰巧其他的action没有被采样到，这样其他的action将更不会被选择，

并不是他们不好，所以需要打破这种循环，我们以一定的几率选择Q最大的，还有几率选择其他的action。

3.3 Replay Buffer

我们将历史数据存到Buffer里，然后训练的时候随机选一批，还要定期更新Buffer

3.4 完整算法

4 QLeaning 进阶

参考：

链接：https://www.zhihu.com/question/49787932/answer/124727629

https://www.youtube.com/watch?v=2-zGCx4iv_k&list=PLJV_el3uVTsODxQFgzMzPLa16h6B8kWM_&index=4

强化学习--QLearning的更多相关文章

强化学习 - Q-learning Sarsa 和 DQN 的理解
本文用于基本入门理解. 强化学习的基本理论 : R, S, A 这些就不说了. 先设想两个场景: 一. 1个 5x5 的格子图, 里面有一个目标点, 2个死亡点二. 一个迷宫, 一个出发点, ...
强化学习Q-Learning算法详解
python风控评分卡建模和风控常识(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005214003&am ...
强化学习-Q-Learning算法
1. 前言 Q-Learning算法也是时序差分算法的一种,和我们前面介绍的SARAS不同的是,SARSA算法遵从了交互序列,根据当前的真实行动进行价值估计:Q-Learning算法没有遵循交互序列, ...
深度学习之强化学习Q-Learning
1.知识点 """ 1.强化学习:学习系统没有像很多其他形式的机器学习方法一样被告知应该做什么行为, 必须在尝试之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅 ...
强化学习——Q-learning算法
假设有这样的房间如果将房间表示成点,然后用房间之间的连通关系表示成线,如下图所示: 这就是房间对应的图.我们首先将agent(机器人)处于任何一个位置,让他自己走动,直到走到5房 ...
强化学习-Q-learning学习笔记
Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索,以1-ep的概率以最大值策略进行开发,因为设定的迭代次数比较多,所以肯定存在一定的次数去搜索不同的动作. 1)Python版本 b站 ...
强化学习之Q-learning简介
https://blog.csdn.net/Young_Gy/article/details/73485518 强化学习在alphago中大放异彩,本文将简要介绍强化学习的一种q-learning.先 ...
强化学习之QLearning
注:以下第一段代码是文章提供的代码,但是简书的代码粘贴下来不换行,所以我在这里贴了一遍.其原理在原文中也说得很明白了. 算个旅行商问题基本介绍戳代码解释与来源代码整个计算过程使用的以下公式 ...
(译) 强化学习第一部分：Q-Learning 以及相关探索
(译) 强化学习第一部分:Q-Learning 以及相关探索 Q-Learning review: Q-Learning 的基础要点是:有一个关于环境状态S的表达式,这些状态中可能的动作 a,然后你 ...

随机推荐

[daily][dpdk] 内核模块(网卡驱动)无法卸载
由于程序的异常退出, 内核的引用计数没有被清除(我猜的). 所以驱动不能被卸载掉, 强制也不行. 如下: [root@localhost ~]# insmod /opt/scorpion/KingKo ...
linux学习：【第2篇】常用命令
狂神声明 : 文章均为自己的学习笔记 , 转载一定注明出处 ; 编辑不易 , 防君子不防小人~共勉 ! linux学习:[第2篇]常用命令基本命令 //打开终端: CentOS:在任何地方,右键-- ...
洛谷P3311 [SDOI2014]数数 AC自动机+dp
正解:AC自动机+dp 解题报告: 传送门! 首先看到多串匹配balabala显然想到建个AC自动机? 然后可以用一点儿数位dp的思想地想下(,,,其实并不算QAQ 幸运数可以分为两类:位数<n ...
洛谷P3295 萌萌哒 [SCOI2016] 倍增+并查集
正解:倍增+并查集解题报告: 传送门! 首先不难想到暴力?就考虑把区间相等转化成对应点对相等,然后直接对应点连边,最后求有几个连通块就好辣然后看下复杂度,修改是O(n2)查询是O(n),就比较容易 ...
python全栈开发day10
day10知识点总结 while循环补充: continue,终止当前循环,开始下一次循环 break,终止所有循环 pycharm 技巧1.setting 中搜索 mouse 设置鼠标滚轮改变字体 ...
Java中String类两种实例化的区别（转）
原文:http://blog.csdn.net/wangdajiao/article/details/52087302 一.String类的第一种方式 1.直接赋值例:String str = &q ...
检测到目标URL存在http host头攻击漏洞
检测到目标URL存在http host头攻击漏洞 1.引发安全问题的原因为了方便的获得网站域名,开发人员一般依赖于HTTP Host header.例如,在php里用_SERVER["HT ...
win10安装pycharm及汉化包
PyCharm 是一款功能强大的 Python 编辑器,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,那么如何安装pycharm呢?都是英文看不懂有没有汉化版呢?跟ytkah一起 ...
kafka4 副本机制
概述每个分区有n个副本,可以承受n-1个节点故障. 每个副本都有自己的leader,其余都是follower. zk中存放分区的leader和 follower replica的信息.(get /b ...
Linux系统启动和内核管理
Linux组成由 kernel 和 rootfs 组成单内核:(进程管理,内存管理,网络管理, 驱动程序,文件系统, 安全功能) /boot/vmlinuz-VERSION-release 辅助的 ...