在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)，本篇我们讨论最后一种强化学习流派，基于模型的强化学习(Model Based RL)，以及基于模型的强化学习算法框架Dyna。

　　　　本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。

1. 基于模型的强化学习简介

　　　　基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的，它们从价值函数，策略函数中直接去学习，不用学习环境的状态转化概率模型，即在状态$s$下采取动作$a$,转到下一个状态$s'$的概率$P_{ss'}^a$。

　　　　而基于模型的强化学习则会尝试从环境的模型去学习，一般是下面两个相互独立的模型：一个是状态转化预测模型，输入当前状态$s$和动作$a$，预测下一个状态$s'$。另一个是奖励预测模型，输入当前状态$s$和动作$a$，预测环境的奖励$r$。即模型可以描述为下面两个式子：$$S_{t+1} \sim P(S_{t+1}|S_t,A_t)$$$$R_{t+1} \sim R(R_{t+1}|S_t,A_t)$$

　　　　如果模型$P,R$可以准确的描述真正的环境的转化模型，那么我们就可以基于模型来预测，当有一个新的状态$S$和动作$A$到来时，我们可以直接基于模型预测得到新的状态和动作奖励，不需要和环境交互。当然如果我们的模型不好，那么基于模型预测的新状态和动作奖励可能错的离谱。

　　　　从上面的描述我们可以看出基于模型的强化学习和不基于模型的强化学习的主要区别：即基于模型的强化学习是从模型中学习，而不基于模型的强化学习是从和环境交互的经历去学习。

　　　　下面这张图描述了基于模型的强化学习的思路：

2. 基于模型的强化学习算法训练流程

　　　　这里我们看看基于模型的强化学习算法训练流程，其流程和我们监督学习算法是非常类似的。

　　　　假设训练数据是若干组这样的经历：$$S_1,A_1,R_2,S_2,A_2,R_2,...,S_T$$

　　　　对于每组经历，我们可以将其转化为$T-1$组训练样本，即：$$S_1,A_1 \to S_2,\;S_1,A_1 \to R_2$$$$S_2,A_2 \to S_3,\;S_2,A_2 \to R_3$$$$......$$$$S_{T-1},A_{T-1} \to S_T,\;S_{T_1},A_{T-1} \to R_T$$

　　　　右边的训练样本一起组成了一个分类模型或密度估计模型，输入状态和动作，输出下一个状态。右边的训练样本一起组成了一个回归模型训练集，输入状态和动作，输出动作奖励值。

　　　　至此我们的强化学习求解过程和传统的监督学习算法没有太多区别了，可以使用传统的监督学习算法来求解这两个模型。

　　　　当然还可以更简单，即通过对训练样本进行查表法进行统计，直接得到$P(S_{t+1}|S_t,A_t)$的概率和$R(R_{t+1}|S_t,A_t)$的平均值，这样就可以直接预测。比使用模型更简单。

　　　　此外，还有其他的方法可以用来得到$P(S_{t+1}|S_t,A_t)$和$R(R_{t+1}|S_t,A_t)$，这个我们后面再讲。

　　　　虽然基于模型的强化学习思路很清晰，而且还有不要和环境持续交互优化的优点，但是用于实际产品还是有很多差距的。主要是我们的模型绝大多数时候不能准确的描述真正的环境的转化模型，那么使用基于模型的强化学习算法得到的解大多数时候也不是很实用。那么是不是基于模型的强化学习就不能用了呢？也不是，我们可以将基于模型的强化学习和不基于模型的强化学习集合起来，取长补短，这样做最常见的就是Dyna算法框架。

3. Dyna算法框架

　　　　Dyna算法框架并不是一个具体的强化学习算法，而是一类算法框架的总称。Dyna将基于模型的强化学习和不基于模型的强化学习集合起来，既从模型中学习，也从和环境交互的经历去学习，从而更新价值函数和（或）策略函数。如果用和第一节类似的图，可以表示如下图，和第一节的图相比，多了一个“Direct RL“的箭头，这正是不基于模型的强化学习的思路。

　　　　Dyna算法框架和不同的具体的不基于模型的强化学习一起，可以得到具体的不同算法。如果我们使用基于价值函数的Q-Learning，那么我们就得到了Dyna-Q算法。我们基于Dyna-Q来看看Dyna算法框架的一般流程.

4. Dyna-Q算法流程

　　　　这里我们给出基于价值函数的Dyna-Q算法的概要流程。假设模型使用的是查表法。

　　　　1. 初始化任意一个状态$s$,和任意一个动作$a$对应的状态价值$Q(s,a)$, 初始化奖励模型$R(s,a)$和状态模型$P(s,a)$

　　　　2. for i=1 to 最大迭代次数T：

　　　　　　a) S $\gets$ current state

　　　　　　b) A $\gets$ $\epsilon-greedy(S,Q)$

　　　　　　c) 执行动作$A$,得到新状态$S'$和奖励$R$

　　　　　　d) 使用Q-Learning更新价值函数：$Q(S,A) =Q(S,A) + \alpha[R +\gamma\max_aQ(S',a) -Q(S,A)]$

　　　　　　e) 使用$S,A,S'$更新状态模型$P(s,a)$，使用$S,A,R$更新状态模型$R(s,a)$

　　　　　　f) for j=1 to 最大次数n：

　　　　　　　　i) 随机选择一个之前出现过的状态$S$, 在状态$S$上出现过的动作中随机选择一个动作$A$

　　　　　　　　ii) 基于模型$P(S,A)$得到$S'$, 基于模型$R(S,A)$得到$R$

　　　　　　　　iii) 使用Q-Learning更新价值函数：$Q(S,A) =Q(S,A) + \alpha[R +\gamma\max_aQ(S',a) -Q(S,A)]$

　　　　从上面的流程可以看出，Dyna框架在每个迭代轮中，会先和环境交互，并更新价值函数和（或）策略函数，接着进行n次模型的预测，同样更新价值函数和（或）策略函数。这样同时利用上了和环境交互的经历以及模型的预测。

5. Dyna-2算法框架

　　　　在Dyna算法框架的基础上后来又发展出了Dyna-2算法框架。和Dyna相比，Dyna-2将和和环境交互的经历以及模型的预测这两部分使用进行了分离。还是以Q函数为例，Dyna-2将记忆分为永久性记忆（permanent memory）和瞬时记忆（transient memory）, 其中永久性记忆利用实际的经验来更新，瞬时记忆利用模型模拟经验来更新。

　　　　永久性记忆的Q函数定义为：$$Q(S,A) = \phi(S,A)^T\theta$$

　　　　瞬时记忆的Q函数定义为：$$Q'(S,A) = \overline{\phi}(S,A)^T\overline{\theta }$$

　　　　组合起来后记忆的Q函数定义为：$$\overline{Q}(S,A) = \phi(S,A)^T\theta + \overline{\phi}(S,A)^T\overline{\theta }$$

　　　　Dyna-2的基本思想是在选择实际的执行动作前，智能体先执行一遍从当前状态开始的基于模型的模拟，该模拟将仿真完整的轨迹，以便评估当前的动作值函数。智能体会根据模拟得到的动作值函数加上实际经验得到的值函数共同选择实际要执行的动作。价值函数的更新方式类似于$SARSA(\lambda)$

　　　　以下是Dyna-2的算法流程：

6. 基于模型的强化学习总结

　　　　基于模型的强化学习一般不单独使用，而是和不基于模型的强化学习结合起来，因此使用Dyna算法框架是常用的做法。对于模型部分，我们可以用查表法和监督学习法等方法，预测或者采样得到模拟的经历。而对于非模型部分，使用前面的Q-Learning系列的价值函数近似，或者基于Actor-Critic的策略函数的近似都是可以的。

　　　　除了Dyna算法框架，我们还可以使用基于模拟的搜索(simulation-based search)来结合基于模型的强化学习和不基于模型的强化学习,并求解问题。这部分我们在后面再讨论。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

强化学习(十七) 基于模型的强化学习与Dyna算法框架的更多相关文章

强化学习之五：基于模型的强化学习（Model-based RL）
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...
ICML 2018 | 从强化学习到生成模型：40篇值得一读的论文
https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...
时间序列深度学习：seq2seq 模型预测太阳黑子
目录时间序列深度学习:seq2seq 模型预测太阳黑子学习路线商业中的时间序列深度学习商业中应用时间序列深度学习深度学习时间序列预测:使用 keras 预测太阳黑子递归神经网络设置.预处 ...
聚类：层次聚类、基于划分的聚类（k-means）、基于密度的聚类、基于模型的聚类
一.层次聚类 1.层次聚类的原理及分类 1)层次法(Hierarchicalmethods)先计算样本之间的距离.每次将距离最近的点合并到同一个类.然后,再计算类与类之间的距离,将距离最近的类合并为一 ...
基于Matlab的MMSE的语音增强算法的研究
本课题隶属于学校的创新性课题研究项目.2012年就已经做完了,今天一并拿来发表. 目录: --基于谱减法的语音信号增强算法..................................... ...
基于模糊Choquet积分的目标检测算法
本文根据论文:Fuzzy Integral for Moving Object Detection-FUZZ-IEEE_2008的内容及自己的理解而成,如果想了解更多细节,请参考原文.在背景建模中,我 ...
强化学习之免模型学习（model-free based learning）
强化学习之免模型学习(model-free based learning) ------ 蒙特卡罗强化学习与时序查分学习 ------ 部分节选自周志华老师的教材<机器学习> 由于现 ...
ML.NET 示例：图像分类模型训练-首选API（基于原生TensorFlow迁移学习）
ML.NET 版本 API 类型状态应用程序类型数据类型场景机器学习任务算法 Microsoft.ML 1.5.0 动态API 最新控制台应用程序和Web应用程序图片文件图像分类基 ...

随机推荐

birt4.6部署到tomcat及启动服务报错解决方法
一.下载birt-runtime-4.6.0-20160607.zip包解压后birt-runtime-4.6.0-20160607\WebViewerExample将WebViewerExampl ...
局部内部类访问它所在方法的局部变量时，要求该局部变量必须声明为final的原因
这是java的一条规则.那么为什么会有这条规则呢?要想弄懂这个问题,就需要弄懂局部内部类对象和局部变量的生命周期的谁更长的问题. 首先,看一段代码,以没有将变量声明为final的代码作为例子,代码如下 ...
Java中浮点数的精度问题【转】
当您在计算Money的时候,请看好了!!!要不损失了别后悔!!! 现象1: public static void main(String[] args) { System.out.println(0. ...
github page 配置hexo 博客的常见错误
缘起最近看到好多的公众号作者推荐大家搭建自己的博客,自己手痒也搭建了一个个人博客lumang,具体过程就是一开始上网搜索一番教程,按照教程开始搭建,由于是windows的环境,同时教程也有很多的老旧 ...
Fiddler抓包工具证书安装
转自:https://www.cnblogs.com/hushaojun/p/6385947.html Fiddler证书安装(查看HTTPS) 现在很多带有比较重要信息的接口都使用了安全性更高的HT ...
SpringMVC中的拦截器
1. 自定义拦截器实现HandlerInterceptor接口拦截器一: package cn.rodge.ssm.interceptor;import javax.servlet.http.Ht ...
CUDA编程模型之内存管理
CUDA编程模型假设系统是由一个主机和一个设备组成的,而且各自拥有独立的内存. 主机:CPU及其内存(主机内存),主机内存中的变量名以h_为前缀,主机代码按照ANSI C标准进行编写设备:GPU及其 ...
Oracle-11：联合查询
------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 联合查询的实际上的意义就是从俩个结果集中拿有特定联系的结果封装为一个结果集数据库脚本给放一份,供测试使用 c ...
小苹果WP(实验吧-隐写术)
本文由荒原之梦原创,原文链接:http://zhaokaifeng.com/?p=706 前言:本文是实验吧训练题库里隐写术部分的一道题:"小苹果"的Write Up. 题目链接: ...
ajax技术基础详解
一.概述 1.什么是ajax 可以与服务器进行[异步]交互的技术,浏览器无需刷新 2.什么时候出现ajax? -- XMLHttp 微软 1999年微软公司发布IE5版本,内嵌了ajax技术什么时候 ...

强化学习(十七) 基于模型的强化学习与Dyna算法框架