增强学习 | Q-Learning

“价值不是由一次成功决定的，而是在长期的进取中体现”

上文介绍了描述能力更强的多臂赌博机模型，即通过多台机器的方式对环境变量建模，选择动作策略时考虑时序累积奖赏的影响。虽然多臂赌博机模型中引入了价值的概念，但方法在建模过程中本质上是以策略为优化目标，因此又常被归为基于策略的增强学习方法。

此外，增强学习方法还有基于价值以及基于模型两类主要方法。本文介绍第二类，先从描述价值目标的Q函数开始，它也常称之为Q-Learning方法。

最简单的Q函数可用“状态-动作”二维表（Q-Table）描述，其中行表示状态s，列表示动作a，矩阵中的值表示特定状态下执行某动作的回报值为r(s,a)。智能体Agent通过不断更新并查找该表，找到当前状态回报最高的动作执行。

为避免Q-Table陷入局部最优，即使得当前回报最高的结果能达到全局最优，需要通过训练获得累积回报，迭代更新Q-Table，使之能指导长期期望价值最大化的动作执行。

为便于计算，将Q-Table表示为Bellman递推等式，拆分为当前回报和未来最大回报的和，即Q(s,a)=r(s, a)+b(max(Q(s’,a’)))，其中s’表示s状态在a行为作用下的下一状态，而a’为s’状态后所有可能的行为，b为价值累积过程中的打折系数，决定了未来回报相对于当前回报的重要程度。

同样的，也可使用神经网络对Q函数进行建模，其输入为Agent环境状态，输出为使价值最大化的Agent动作。训练过程中，初始Q(s,a)为0，训练中Agent每行动一次，通过Bellman等式计算Q’(s,a)，优化目标是使得Agent根据Q函数执行动作能获得训练过程中的最大价值回报，即Q(s,a)与Q’(s,a)的差异最小。

例如，OpenAI gym的FrozenLake问题，假设人要穿过一个4x4方格的冰湖（从S到G），有冰的地方（F）可以行走，无冰的洞（H）会掉入湖中。使用增强学习建模，其状态空间为4x4的方格空间，动作为“上下左右”的移动，达到目标的回报价值为1，掉入洞中的回报价值为-1。

分别使用Q-Table和神经网络Q函数对FrozenLake问题进行建模求解，可以发现神经网络Q函数的学习方法，在同样实验迭代次数下可以探索出更多的“可行路径”。

对代码实现和实验效果感兴趣的朋友，可在数据小虾米公众号后台回复“代码”，获得源码地址。

数据科学武林风起云涌，
随数据小虾米共闯江湖~

增强学习 | Q-Learning的更多相关文章

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)
接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstrapping ...
增强学习Reinforcement Learning经典算法梳理3：TD方法
转自:http://blog.csdn.net/songrotek/article/details/51382759 博客地址:http://blog.csdn.net/songrotek/artic ...
增强学习（Reinforcement Learning and Control）
增强学习(Reinforcement Learning and Control) [pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y.之后对样本进行 ...
强化学习9-Deep Q Learning
之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连 ...
深度增强学习--Deep Q Network
从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 import sys import gym import pylab import random import n ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
马里奥AI实现方式探索 ——神经网络+增强学习
[TOC] 马里奥AI实现方式探索 --神经网络+增强学习儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典 ...
增强学习（三）----- MDP的动态规划解法
上一篇我们已经说到了,增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略,使其在任意初始状态下,都能获得最大的Vπ值.(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的 ...
增强学习（四） ----- 蒙特卡罗方法(Monte Carlo Methods)
1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法,它使用随机数(或伪随机数)来解决计算的问题,是一类重要的数值计算方法.该方法的名字来源于世界著名的赌城蒙特卡罗,而蒙特卡罗方法正是以概率为基 ...
常用增强学习实验环境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （转载）
原文链接:http://blog.csdn.net/jinzhuojun/article/details/78508203 前段时间Nature上发表的升级版Alpha Go - AlphaGo Ze ...

随机推荐

ES6核心内容精讲--快速实践ES6（一）
前言本文大量参考了阮一峰老师的开源教程ECMAScript6入门,适合新手入门或者对ES6常用知识点进行全面回顾,目标是以较少的篇幅涵盖ES6及部分ES7在实践中的绝大多数使用场景.更全面.更深入的 ...
项目管理之 Git 管理软件 SourceTree for Mac
Git 项目管理: Mac Terminal 生成 Git 秘钥流程: git config --global user.name "yourname" git config -- ...
放弃FreeMark？
JAVA项目FreeMark 生产静态页面 a) 弊端 i. 依赖后台工程师拼装页面,不利于前端.后台工作完全解耦. ii. ...
bug 修复:上传库存时前端回发file_name参数丢失;
# tmp_file = os.path.join(os.path.abspath('youcart/tmp'), json.loads(request.data).get('file_name')) ...
Java之反射--练习
定义Student 类:包含:姓名和年龄等属性,有参和无参构造方法,输出所有信息的方法 1.使用多种方法生成一个Student类的Class对象 2.使用Class类获取Student类的结构信息并输 ...
Xamarin开发笔记—百度在线语音合成
语音合成:也被称为文本转换技术(TTS),它是将计算机自己产生的.或外部输入的文字信息转变为可以听得懂的.流利的口语输出的技术. 技术选型:语音合成初步选择有两个,一是讯飞.二是百度. 因为使用的是X ...
Linux下如果忘记了Mysql的root密码该怎么办？
下面十分简单的办法用来重置密码: 1.编辑MySQL配置文件my.cnf vi /etc/my.cnf #编辑文件,找到[mysqld],在下面添加一行skip-grant-tables [mysql ...
【Selenium】Selenium1
一.Selenium1组件 (1)Selenium服务器,负责启动关闭浏览器:解释和运行从测试程序中传来的Selenium命令:HTTP代理:获取和验证在浏览器和被测试的应用程序之间的传递的HTTP消 ...
微信公众平台开发实战Java版之如何网页授权获取用户基本信息
第一部分:微信授权获取基本信息的介绍我们首先来看看官方的文档怎么说: 如果用户在微信客户端中访问第三方网页,公众号可以通过微信网页授权机制,来获取用户基本信息,进而实现业务逻辑. 关于网页授权回调域 ...
cpu-z如何查看电脑配置数据方法介绍
CPU-Z是款经典的内存检测工具,具有5大功能,使用CPU-Z可以查询电脑的处理器.缓存.主板.内存.显卡以及SPD的信息.但是怎么具体看哪一个项目呢?在今天的教程中,小编就跟大家分享一下cpu-z ...

增强学习 | Q-Learning

增强学习 | Q-Learning的更多相关文章

随机推荐

热门专题