不基于模型(Model-free)的预测

无法事先了解状态转移的概率矩阵

蒙特卡罗方法

从开始状态开始，到终结状态，找到一条完整的状态序列，以求解每个状态的值。相比于在整个的状态空间搜索，是一种采样的方法。
对于某一状态在同一状态序列中重复出现的，有以下两种方法：
- 只选择第一个状态进行求解，忽略之后的所有相同状态
- 考虑所有的状态，求平均值
对于求解每个状态的值，使用平均值代表状态值，根据大数定理，状态数足够多的条件下，该平均值等于状态值。平均值求解有两种方法：
- 存储所有状态后求平均：消耗大量存储空间
- 每次迭代状态都更新当前平均值：

时序差分方法

蒙特卡罗方法需要获得从开始到终结的一条完整的状态序列，以求解每个状态的值，时序差分方法则不需要。根据贝尔曼不等式，只需要从当前状态到下一状态求解。
时序差分方法每步都更新状态值，而蒙特卡罗方法需要等到所有状态结束才更新。

蒙特卡罗方法使用最后的目标来求解状态值，而时序差分使用下一状态的估计在每一步调整状态值。
蒙特卡罗方法是无偏估计方差较大，时序差分则是有篇估计但估计方差小。

多步的时序差分方法

时序差分方法使用当前状态值和下一状态值更新当前状态值，如果使用当前状态值和之后多步的状态值更新当前状态值，就是多步的时序差分方法。
当步数到最后的终结状态时，便是蒙特卡罗方法。
当步数到下一状态时，便是时序差分方法。
多步的时序差分方法，分为前向和后向的时序差分方法。

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程（三）的更多相关文章

DQN(Deep Reiforcement Learning) 发展历程（五）
目录值函数的近似 DQN Nature DQN DDQN Prioritized Replay DQN Dueling DQN 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) ...
DQN(Deep Reiforcement Learning) 发展历程（四）
目录不基于模型的控制选取动作的方法在策略上的学习(on-policy) 不在策略上的学习(off-policy) 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发 ...
DQN(Deep Reiforcement Learning) 发展历程（二）
目录动态规划使用条件分类求解方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展历程(五) 动态规划动态规划给出了求解强化学习的一种 ...
DQN(Deep Reiforcement Learning) 发展历程(一)
目录马尔可夫理论马尔可夫性质马尔可夫过程(MP) 马尔可夫奖励过程(MRP) 值函数(value function) MRP求解马尔可夫决策过程(MDP) 效用函数优化的值函数贝尔曼等式 ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
C#与C++的发展历程第三 - C#5.0异步编程巅峰
系列文章目录 1. C#与C++的发展历程第一 - 由C#3.0起 2. C#与C++的发展历程第二 - C#4.0再接再厉 3. C#与C++的发展历程第三 - C#5.0异步编程的巅峰 C#5.0 ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...
Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...

随机推荐

自定义jquery公用方法切换当前tab栏
经常在项目中需要写到切换当前栏目的展示效果,定义公共方法 //切换当前选中 /** * 全局切换或滑动标签的函数.一般使用active作为当前激活标签的类名,如果已使用其它类名,请将类名作为二参传入 ...
js-jQuery性能优化（一）
来自于<锋利的jQuery> 1.使用最新版本的jQuery类库 jQuery每一个新的版本都会较上一版本进行BUG修复和一些优化,同时也会包含一些创新,所以建议使用最新版本的jQuery ...
css 文本两行显示，超出省略号表示
重点:text-overflow: ellipsis;只对display:inline:起作用例子: <span class="a">我说说<b class= ...
SQL SERVER 将表字段值0和1互转的几种方法
需求: 如果表字段的值为 0 则将其修改为1 ,如果表字段的值为 1 则将其修改为 0. 方法一 end 方法二 ) 方法三 )
标准工作流（AWE）邮件通知
今天遇到一个问题,UAT环境收不到流程待办,最终审批,最终拒绝等邮件. 检查了PT_WF_NOTIFICATION包的Notification类中的Send方法,发现如果app服务器在psappsrv ...
树莓派 MPG视频硬件解码破解 Raspberry Pi Patch for MPEG-2, VC-1 license
Enable the Pi's hardware decoding of MPEG-2 and VC-1 MPEG2 patents have expired If you have start.e ...
.NET Dispose模式的实现
以下是代码: /// <summary> /// Dispose Pattern /// </summary> /// <remarks> /// 由逻辑可知: / ...
关于innodb mtr模块
mtr (mini-transaction)微事务 mtr作用 mtr模块主要保证物理操作的一致性和原子性 1 一致性:通过读写锁来保证 2 原子性:涉及到的物理更新,都记入redo日志 mtr何时使 ...
mysql瑞士军刀–pt工具
Percona-Toolkits Percona-toolkit 简介 percona-toolkit是一组高级命令行工具的集合,用来执行各种通过手工执行非常复杂和麻烦的mysql任务和系统任务,这些 ...
【转】Java学习---垃圾回收算法与 JVM 垃圾回收器综述
[原文]https://www.toutiao.com/i6593931841462338062/ 垃圾回收算法与 JVM 垃圾回收器综述我们常说的垃圾回收算法可以分为两部分:对象的查找算法与真正的 ...

DQN(Deep Reiforcement Learning) 发展历程（三）

不基于模型(Model-free)的预测

蒙特卡罗方法

时序差分方法

多步的时序差分方法

参考

DQN(Deep Reiforcement Learning) 发展历程（三）的更多相关文章

随机推荐

热门专题