增强学习 | Q-Learning

“价值不是由一次成功决定的，而是在长期的进取中体现”

上文介绍了描述能力更强的多臂赌博机模型，即通过多台机器的方式对环境变量建模，选择动作策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念，但方法在建模过程中本质上是以策略为优化目标，因此又常被归为基于策略的增强学习方法。

此外，增强学习方法还有基于价值以及基于模型两类主要方法。本文介绍第二类，先从描述价值目标的Q函数开始，它也常称之为Q-Learning方法。

最简单的Q函数可用“状态-动作”二维表（Q-Table）描述，其中行表示状态s，列表示动作a，矩阵中的值表示特定状态下执行某动作的回报值为r(s,a)。智能体Agent通过不断更新并查找该表，找到当前状态回报最高的动作执行。

为避免Q-Table陷入局部最优，即使得当前回报最高的结果能达到全局最优，需要通过训练获得累积回报，迭代更新Q-Table，使之能指导长期期望价值最大化的动作执行。

为便于计算，将Q-Table表示为Bellman递推等式，拆分为当前回报和未来最大回报的和，即Q(s,a)=r(s, a)+b(max(Q(s’,a’)))，其中s’表示s状态在a行为作用下的下一状态，而a’为s’状态后所有可能的行为，b为价值累积过程中的打折系数，决定了未来回报相对于当前回报的重要程度。

同样的，也可使用神经网络对Q函数进行建模，其输入为Agent环境状态，输出为使价值最大化的Agent动作。训练过程中，初始Q(s,a)为0，训练中Agent每行动一次，通过Bellman等式计算Q’(s,a)，优化目标是使得Agent根据Q函数执行动作能获得训练过程中的最大价值回报，即Q(s,a)与Q’(s,a)的差异最小。

例如，OpenAI gym的FrozenLake问题，假设人要穿过一个4x4方格的冰湖（从S到G），有冰的地方（F）可以行走，无冰的洞（H）会掉入湖中。使用增强学习建模，其状态空间为4x4的方格空间，动作为“上下左右”的移动，达到目标的回报价值为1，掉入洞中的回报价值为-1。

分别使用Q-Table和神经网络Q函数对FrozenLake问题进行建模求解，可以发现神经网络Q函数的学习方法，在同样实验迭代次数下可以探索出更多的“可行路径”。

对代码实现和实验效果感兴趣的朋友，可在数据小虾米公众号后台回复“代码”，获得源码地址。

数据科学武林风起云涌，
随数据小虾米共闯江湖~

增强学习 | Q-Learning的更多相关文章

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率$P_{sa}$ 状态值函数的估计是自举的(bootstrapping ...
增强学习Reinforcement Learning经典算法梳理3：TD方法
转自:http://blog.csdn.net/songrotek/article/details/51382759 博客地址:http://blog.csdn.net/songrotek/artic ...
增强学习（Reinforcement Learning and Control）
增强学习(Reinforcement Learning and Control) [pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y.之后对样本进行 ...
强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
深度增强学习--Deep Q Network
从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 import sys import gym import pylab import random import n ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
马里奥AI实现方式探索 ——神经网络+增强学习
[TOC] 马里奥AI实现方式探索 --神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典 ...
增强学习（三）----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值.(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的 ...
增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
常用增强学习实验环境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （转载）
原文链接:http://blog.csdn.net/jinzhuojun/article/details/78508203 前段时间Nature上发表的升级版Alpha Go - AlphaGo Ze ...

随机推荐

CentOS6.7 防火墙规则（Iptables)
查看防火墙的状态 /etc/init.d/iptables status 开启防火墙 /etc/init.d/iptables start 关闭防火墙 /etc/init.d/iptables sto ...
java 空指针异常造成的原因有哪些
实际上空指针异常也就是你用了一个没有实际值的对象 1. 某一对象没有被实例化,就拿来使用,如调用此对象的方法,会抛空指针异常. 2. 获取从别的对象传过来的对象为空 3. 数据库查询方面的空指 ...
最近用django做了个在线数据分析小网站
用最近做的理赔申请人测试数据集做了个在线分析小网站. 数据结构,算法等设置都保存在json文件里.将来对这个小破站扩充算法,只修改一下json文件就行. 当然,结果分析还是要加代码的.页面代码不贴了, ...
python之路 socket,socketsever初探
socket的英文原义是"孔"或"插座".作为BSD UNIX的进程通信机制,取后一种意思.通常也称作"套接字",用于描述IP地址和端口,是 ...
Python中lambda用法
lambda只是一个表达式,函数体比def简单很多. lambda的主体是一个表达式,而不是一个代码块.仅仅能在lambda表达式中封装有限的逻辑进去. lambda表达式是起到一个函数速写的作用.允 ...
Android面试题目2
1. 请描述下Activity的声明周期. onCreate->onStart->onRemuse->onPause->onStop->onRestart->onD ...
基于FPGA的彩色图像转灰度算法实现
昨天才更新了两篇博客,今天又要更新了,并不是我垃圾产,只不过这些在上个月就已经写好了,只是因为比赛忙,一直腾不出时间整理出来发表而已,但是做完一件事情总感觉不写一博文总结一下就少点什么,所以之后的一段 ...
关于JQuery获取宽度和高度在chrome和IE下的不同
之前写了一个关于滚动条的东西,可是在写的时候发现JQuery在获取宽度和高度时在不同浏览器中是不一样的,下面发一下代码给给位看官先展示一下: $(function(){ $("#main&q ...
利用arpspoof和urlsnarf 进行ARP嗅探
地址解析协议 (ARP, Address Resolution Protocol) 是如何将网络设备的MAC地址和其IP地址关联起来的,这样在同一个局域网内的设备就能相互知道彼此的存在.ARP基本上就 ...
sqlserver 游标写法
1.简单游标 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 declare m_cursor cursor scroll for select Address,People ...

增强学习 | Q-Learning

增强学习 | Q-Learning的更多相关文章

随机推荐

热门专题