不基于模型(Model-free)的预测

无法事先了解状态转移的概率矩阵

蒙特卡罗方法

从开始状态开始，到终结状态，找到一条完整的状态序列，以求解每个状态的值。相比于在整个的状态空间搜索，是一种采样的方法。
对于某一状态在同一状态序列中重复出现的，有以下两种方法：
- 只选择第一个状态进行求解，忽略之后的所有相同状态
- 考虑所有的状态，求平均值
对于求解每个状态的值，使用平均值代表状态值，根据大数定理，状态数足够多的条件下，该平均值等于状态值。平均值求解有两种方法：
- 存储所有状态后求平均：消耗大量存储空间
- 每次迭代状态都更新当前平均值：

时序差分方法

蒙特卡罗方法需要获得从开始到终结的一条完整的状态序列，以求解每个状态的值，时序差分方法则不需要。根据贝尔曼不等式，只需要从当前状态到下一状态求解。
时序差分方法每步都更新状态值，而蒙特卡罗方法需要等到所有状态结束才更新。

蒙特卡罗方法使用最后的目标来求解状态值，而时序差分使用下一状态的估计在每一步调整状态值。
蒙特卡罗方法是无偏估计方差较大，时序差分则是有篇估计但估计方差小。

多步的时序差分方法

时序差分方法使用当前状态值和下一状态值更新当前状态值，如果使用当前状态值和之后多步的状态值更新当前状态值，就是多步的时序差分方法。
当步数到最后的终结状态时，便是蒙特卡罗方法。
当步数到下一状态时，便是时序差分方法。
多步的时序差分方法，分为前向和后向的时序差分方法。

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

DQN(Deep Reiforcement Learning) 发展历程（三）的更多相关文章

DQN(Deep Reiforcement Learning) 发展历程（五）
目录值函数的近似 DQN Nature DQN DDQN Prioritized Replay DQN Dueling DQN 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) ...
DQN(Deep Reiforcement Learning) 发展历程（四）
目录不基于模型的控制选取动作的方法在策略上的学习(on-policy) 不在策略上的学习(off-policy) 参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发 ...
DQN(Deep Reiforcement Learning) 发展历程（二）
目录动态规划使用条件分类求解方法参考 DQN发展历程(一) DQN发展历程(二) DQN发展历程(三) DQN发展历程(四) DQN发展历程(五) 动态规划动态规划给出了求解强化学习的一种 ...
DQN(Deep Reiforcement Learning) 发展历程(一)
目录马尔可夫理论马尔可夫性质马尔可夫过程(MP) 马尔可夫奖励过程(MRP) 值函数(value function) MRP求解马尔可夫决策过程(MDP) 效用函数优化的值函数贝尔曼等式 ...
Deep Reinforcement Learning 基础知识（DQN方面）
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算 ...
[DQN] What is Deep Reinforcement Learning
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Re ...
C#与C++的发展历程第三 - C#5.0异步编程巅峰
系列文章目录 1. C#与C++的发展历程第一 - 由C#3.0起 2. C#与C++的发展历程第二 - C#4.0再接再厉 3. C#与C++的发展历程第三 - C#5.0异步编程的巅峰 C#5.0 ...
论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN ...
Deep Reinforcement Learning: Pong from Pixels
这是一篇迟来很久的关于增强学习(Reinforcement Learning, RL)博文.增强学习最近非常火!你一定有所了解,现在的计算机能不但能够被全自动地训练去玩儿ATARI(译注:一种游戏机) ...

随机推荐

C# Task注意事项
1.在Task中调用主线程控件 Task.Factory.StartNew(() => { }).ContinueWith(task => { this.Invoke(new Action ...
浅析ARM公司在物联网领域的战略布局
From: http://www.cnblogs.com/yefanqiu/p/3447769.html 浅析ARM公司在物联网领域的战略布局随着ARM芯片的出货量越来越多,自信满满的ARM公司统一 ...
Android /data/local/tmp目录的好处
在Android中,访问data目录一般需要root权限,但是有个另外那就是/data/local/tmp目录. 注意: (1)cd /data/local/tmp可以打开这个目录,而不是一级一级目 ...
【Redis】Redis学习（一） Redis初步入门
一.Redis基础知识 1.1 Redis简介 Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理.它支持字符串.哈希表.列表.集合.有序集合,位图,h ...
java基础(十一) 枚举类型
枚举类型Enum的简介 1.什么是枚举类型枚举类型: 就是由一组具有名的值的有限集合组成新的类型.(即新的类). 好像还是不懂,别急,咱们先来看一下为什么要引入枚举类型在没有引入枚举类型前,当我 ...
python常用模块之-random模块
random模块顾名思义就是生成随机数的模块. random模块有以下常见方法: 1,打印0-1之间的任意随机浮点数,不能指定区间. print(random.random()) 2,打印随机符点数, ...
Oracle 密码失灵
java.sql.SQLException: ORA-28001: 密碼已經屆滿 at oracle.jdbc.driver.DatabaseError.throwSqlException(Datab ...
关联与下钻：快速定位MySQL性能瓶颈的制胜手段
本文根据DBAplus社群[2018年1月6日北京开源与架构技术沙龙]现场演讲内容整理而成. 讲师介绍李季鹏新炬网络数据库专家专注于MySQL数据库性能管理及相关解决方案,目前主要从事MySQL ...
【MySQL运维实践】
什么是日志日志(log)是一种顺序记录事件流水的文件记录计算机程序运行过程中发生了什么多种多样的用途帮助分析程序问题分析服务请求的特征.流量等判断工作是否成功执行等等…… MySQL日 ...
sql server复制表数据到另外一个表的存储过程
) Drop Procedure GenerateData go CREATE PROCEDURE GenerateData @tablename sysname AS begin ) ) ) dec ...

DQN(Deep Reiforcement Learning) 发展历程（三）

不基于模型(Model-free)的预测

蒙特卡罗方法

时序差分方法

多步的时序差分方法

参考

DQN(Deep Reiforcement Learning) 发展历程（三）的更多相关文章

随机推荐

热门专题