强化学习 - Q-learning Sarsa 和 DQN 的理解
本文用于基本入门理解。
强化学习的基本理论 : R, S, A 这些就不说了。
先设想两个场景:
一。 1个 5x5 的 格子图, 里面有一个目标点, 2个死亡点
二。 一个迷宫, 一个出发点, 3处 分叉点, 5个死角, 1条活路
Q-learning 的概念 其实就是一个算法, 数学的,或者软件程序的算法而已。
对于这种 死的(固定的游戏), 我个人觉得其实就是个穷举算法而已。
Q-learning 步骤:
场景一:
假设前提:
成功的路 A1, A2, ..... An , A-succ
失败的路 A1, B2, ..... Bn , A-Fail
失败的路 A1, C3, ..... Cn , B-Fail
最后成功后, 给个好处 R = 1, 失败,给个R = -1
1. 先随机走, 走出三条路来, A1 -- > A-succ , A1 -- > A-Fail, A1 -- > B-Fail
2. 走对的路, 最后一个点 An = 1, Bn = -1, Cn = -1 ; 实际上是 x 参数(0.90 自定义)
3. 接下,继续走, 走出 An-1 Bn-1,
3. 接下,继续走, 走出 An-2 Bn-2,
3. 接下,继续走, 走出 An-3 Bn-3,
3. 接下,继续走, 走出 An-4 Bn-4,
4.最后回到 A1, 发现, A1, 向上走 是 0.99, 向右走势 0.10, 向下走势 - 0.50
这样就得到了一个完整的表格, 叫 Q-table, 占在哪个位置,往哪个方向走。 更容达到目标。
总结: Q-learning 其实是个很 low 的算法, 用谚语说就是:一回生,二回熟。
场景二其实是一样的问题:
拐角处才有选择, 非拐角处过滤掉。
个人觉得,用Q-learning 做迷宫, 还不如用 右手法则走迷宫; 反正电脑是傻的, 能达到目标就好。
更新公式:
q_target = r + self.gamma * self.q_table.ix[s_, :].max()
self.q_table.ix[s, a] += self.lr * (q_target - q_predict)
Sarsa 与Q-learning 的区别仅仅在于, 更新Q-table 表里的某一项的时候, 是先走, 还是先计算更新而已。 没有大的区别。
再说 DQN :
DQN 在原先的Q-learning 上做了几个处理:
1. 在选择Action 的时候, 不是用 values.max; 而是用 predict().max
2. 在更新的时候, 不是更新 Q-learning 里的值, 而是通过训练 定量的数据minbatch , 来更新网络的 weights 。
更新了 weights , 其实就是变相更新 values.max 的计算方式; 也就确定了 Action 的选择。
个人总结:
对于走宫格这类问题, 强化的概念反应在, 随机走路后, 成功的路多走走。 逐步稳定固化。
迷宫 虽小, 可以用程序暴力解决(穷举), 但是里面包含的思维方式,值得重视。 这样可以拓展
到规模很大的计算上来, 可以加速成效。 但是用一维 4 dim 的(小数据)数据,去训练神经网络
感觉是大炮打蚊子。
强化学习 - Q-learning Sarsa 和 DQN 的理解的更多相关文章
- 增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...
- 【转载】 强化学习(十)Double DQN (DDQN)
原文地址: https://www.cnblogs.com/pinard/p/9778063.html ------------------------------------------------ ...
- 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!
1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...
- 强化学习(十)Double DQN (DDQN)
在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性.但是还是有其他 ...
- 强化学习(Reinfment Learning) 简介
本文内容来自以下两个链接: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ https: ...
- 爬格子问题(经典强化学习问题) Sarsa 与 Q-Learning 的区别
SARSA v.s. Q-learning 爬格子问题,是典型的经典强化学习问题. 动作是上下左右的走,每走一步就会有一个-1的奖赏.从初始状态走到最终的状态,要走最短的路才能使奖赏最大.图中有一个悬 ...
- 强化学习 reinforcement learning: An Introduction 第一章, tic-and-toc 代码示例 (结构重建版,注释版)
强化学习入门最经典的数据估计就是那个大名鼎鼎的 reinforcement learning: An Introduction 了, 最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习, ...
- Deep Learning专栏--强化学习之MDP、Bellman方程(1)
本文主要介绍强化学习的一些基本概念:包括MDP.Bellman方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning. 1. 强化学习基本概念 这里还是放上David ...
- 强化学习(十一) Prioritized Replay DQN
在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差.今天我 ...
随机推荐
- Unix权限这点事
Unix/Linux的权限管理还是比较复杂的,别人说看高级环境编程得看2,3遍.我想这应该是在Linux有了一定基础.但是我看的过程中确需要反复推敲,有些地方得翻来覆去看上5,6遍甚至更多,下面是自己 ...
- 后台程序处理 (一)python asyncio 协程使用
由于脚本需要在完成事件处理后N秒检查事件处理结果,当执行失败时再执行另一个事件处理. 想要最小化完成这个功能.同时在第一时间就将执行完毕的结果反馈给接口. 因此想到使用协程. 使用之前先翻阅了一下现有 ...
- 37、mysql初识
之前我们写代码需要存取信息时用的是文件可是用文件存取数据非常局限,今天我们将走进一个新的世界mysql 一.数据库由来 之前所学,数据要永久保存,比如用户注册的用户信息,都是保存于文件中,而文件只能存 ...
- 工厂方法模式(Method Factory),理解多态应用的好例子.
工厂方法模式又称为多态性工厂,个人认为多态性工厂更能准确的表达这个模式的用处.与简单工厂(静态工厂)相比较,这里的多态性是指抽象出一个工厂基类,将因为一个产品有N种不同的是现这种变化封装起来,将具体的 ...
- 理解new构造函数和apply以及call
今天在看设计模式的时候,遇到一些挺低级的东西,搞不懂,顾查阅资料整理记录一番. 先了解一下new构造函数的过程: function func(){ console.log('do'); } var f ...
- git stash的用法
使用git stash git stash的使用场景是这样的: 当你正在你的分支下进行开发时,这时候你可能需要切换到你的另一个分支去,你可能要pull新的代码下来,但是你又不想添加无用的commit. ...
- Notepad++使用教程
Notepad++ 快捷键 大全 Ctrl+C 复制Ctrl+X 剪切Ctrl+V 粘贴Ctrl+Z 撤消Ctrl+Y 恢复Ctrl+A 全选Ctrl+F 键查找对话框启动Ctrl+H 查找/替换对话 ...
- 准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure(对于二分类问题)
首先我们可以计算准确率(accuracy),其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比.也就是损失函数是0-1损失时测试数据集上的准确率. 下面在介绍时使用一下例子: 一个 ...
- Spark监控官方文档学习笔记
任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 一系列调度的st ...
- 砸黑板! 正则表达式!!!re 模块
模块是什么? 一个模块就是一个包含了 python 定义和声明的文件,文件名就是模块名字加上.py 的后缀. 但其实 import 加载的模块分为四个通用类别: 1:使用 python 编写的代码(. ...