本文用于基本入门理解。

强化学习的基本理论 : R, S, A 这些就不说了。 
先设想两个场景: 

一。 1个 5x5 的 格子图, 里面有一个目标点,  2个死亡点
二。 一个迷宫,   一个出发点,  3处 分叉点, 5个死角, 1条活路

Q-learning 的概念 其实就是一个算法, 数学的,或者软件程序的算法而已。   
对于这种 死的(固定的游戏), 我个人觉得其实就是个穷举算法而已。 

 Q-learning  步骤:
场景一:
假设前提: 
成功的路  A1, A2, ..... An   ,   A-succ
失败的路 A1, B2, ..... Bn   ,   A-Fail
失败的路 A1, C3, ..... Cn   ,   B-Fail
最后成功后, 给个好处 R  = 1, 失败,给个R = -1  

1. 先随机走, 走出三条路来, A1 -- >  A-succ    , A1 -- >  A-Fail,  A1 -- >  B-Fail
2. 走对的路, 最后一个点 An  = 1,  Bn = -1, Cn = -1 ;   实际上是 x 参数(0.90   自定义)
3. 接下,继续走, 走出 An-1   Bn-1,     
3. 接下,继续走, 走出 An-2   Bn-2,     
3. 接下,继续走, 走出 An-3   Bn-3,     
3. 接下,继续走, 走出 An-4  Bn-4,     

4.最后回到 A1,  发现, A1, 向上走 是 0.99, 向右走势 0.10, 向下走势 - 0.50

这样就得到了一个完整的表格, 叫 Q-table,   占在哪个位置,往哪个方向走。 更容达到目标。

总结:  Q-learning  其实是个很 low 的算法, 用谚语说就是:一回生,二回熟。

场景二其实是一样的问题: 
拐角处才有选择, 非拐角处过滤掉。 
个人觉得,用Q-learning 做迷宫, 还不如用 右手法则走迷宫;  反正电脑是傻的, 能达到目标就好。

更新公式:

q_target = r + self.gamma * self.q_table.ix[s_, :].max()   
self.q_table.ix[s, a] += self.lr * (q_target - q_predict)  
  
Sarsa   与Q-learning  的区别仅仅在于,  更新Q-table 表里的某一项的时候, 是先走, 还是先计算更新而已。 没有大的区别。

再说 DQN :
DQN   在原先的Q-learning 上做了几个处理:
1. 在选择Action 的时候, 不是用    values.max;  而是用  predict().max
2. 在更新的时候, 不是更新 Q-learning 里的值, 而是通过训练 定量的数据minbatch , 来更新网络的 weights 。 
更新了 weights , 其实就是变相更新 values.max 的计算方式; 也就确定了  Action 的选择。

个人总结:
对于走宫格这类问题,  强化的概念反应在, 随机走路后, 成功的路多走走。   逐步稳定固化。
迷宫 虽小, 可以用程序暴力解决(穷举), 但是里面包含的思维方式,值得重视。 这样可以拓展
到规模很大的计算上来, 可以加速成效。   但是用一维  4 dim 的(小数据)数据,去训练神经网络
感觉是大炮打蚊子。

强化学习 - Q-learning Sarsa 和 DQN 的理解的更多相关文章

  1. 增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)

    接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...

  2. 【转载】 强化学习(十)Double DQN (DDQN)

    原文地址: https://www.cnblogs.com/pinard/p/9778063.html ------------------------------------------------ ...

  3. 强化学习(Reinforcement Learning)中的Q-Learning、DQN,面试看这篇就够了!

    1. 什么是强化学习 其他许多机器学习算法中学习器都是学得怎样做,而强化学习(Reinforcement Learning, RL)是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报. ...

  4. 强化学习(十)Double DQN (DDQN)

    在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性.但是还是有其他 ...

  5. 强化学习(Reinfment Learning) 简介

    本文内容来自以下两个链接: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ https: ...

  6. 爬格子问题(经典强化学习问题) Sarsa 与 Q-Learning 的区别

    SARSA v.s. Q-learning 爬格子问题,是典型的经典强化学习问题. 动作是上下左右的走,每走一步就会有一个-1的奖赏.从初始状态走到最终的状态,要走最短的路才能使奖赏最大.图中有一个悬 ...

  7. 强化学习 reinforcement learning: An Introduction 第一章, tic-and-toc 代码示例 (结构重建版,注释版)

    强化学习入门最经典的数据估计就是那个大名鼎鼎的  reinforcement learning: An Introduction 了,  最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习, ...

  8. Deep Learning专栏--强化学习之MDP、Bellman方程(1)

    本文主要介绍强化学习的一些基本概念:包括MDP.Bellman方程等, 并且讲述了如何从 MDP 过渡到 Reinforcement Learning. 1. 强化学习基本概念 这里还是放上David ...

  9. 强化学习(十一) Prioritized Replay DQN

    在强化学习(十)Double DQN (DDQN)中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差.今天我 ...

随机推荐

  1. gradle发布jar包

    在.gradle文件中添加以下代码 apply plugin: 'application' mainClassName = 'com.excel.ExcelApplication' jar { doF ...

  2. 结构体struct sockaddr_in, struct sockaddr,struct in_addr

    一.结构体 struct sockaddr_in,  struct sockaddr,  struct in_addr struct sockaddr_in,  struct sockaddr,str ...

  3. JAVA中的设计模式一(单例模式)

    单例模式有以下特点: 1.单例类只能有一个实例. 2.单例类必须自己创建自己的唯一实例. 3.单例类必须给所有其他对象提供这一实例. 单例模式确保某个类只有一个实例,而且自行实例化并向整个系统提供这个 ...

  4. Java I/O---类体系总结

    1.Java I/O常用 (1)File 对文件系统中文件以及文件夹进行封装的对象,可以通过对象的思想来操作文件和文件夹. (2)FileInputStream 从文件系统中的某个文件中获得输入字节: ...

  5. scala-Future和Promise

    首先说明同步与异步,阻塞与非阻塞的问题: Asynchronous vs. Synchronous A method call is considered synchronous if the cal ...

  6. magento获取商品的图片

    获取商品的图片主要从catalog_product_entity_media_gallery 表中 该表中各列的属性代表 value_id:记录 ID,可以留空让数据库自动生成. attribute_ ...

  7. iOS网络模块优化(失败重发、缓存请求有网发送)

    iOS开发中,一般都是通过AFN搭建一个简易的网络模块来进行与服务器的通信,这一模块要优化好没那么简单,需要花费很多时间与精力,仅仅根据这几年来的填坑经验,总结下这一块的需要注意的地方,也是给自己梳理 ...

  8. lesson - 2 yum /单用户/救援模式/Linux 启动

    课程大纲:1.  yum使用yum 是一个在线安装软件包的工具,它可以帮我们解决软件包的依赖,这个日后会详细介绍.我们介绍了以下几个用法:yum list    这个命令可以列出所有安装过和未安装的软 ...

  9. 在Ubuntu 12.04系统中安装配置OpenCV 2.4.3的方法

    在Ubuntu 12.04系统中安装配置OpenCV 2.4.3的方法   对于,在Linux系统下做图像识别,不像在windows下面我们可以利用Matlab中的图像工具箱来实现,我们必须借助Ope ...

  10. Django学习日记07_Admin

    django.contrib django.contrib是django中附带的一个工具集,由很多的附加组件组成.这些附加组件包括管理工具(django.contrib.admin).用户鉴别系统(d ...