无模型预测（Model-Free Prediction）

无模型预测概论

上一节课《通过DP求解》可以解决一个已知的马尔科夫决策过程

本节课

实践无模型预测
解决或者估计一个未知马尔科夫决策过程的价值函数

下一节课

实现无模型决策（Model-free control）
最优化一个马尔科夫决策过程的价值函数

蒙特卡罗学习（Monte-Carlo Learning/MC Learning）

蒙特卡罗学习方法直接从一系列（Episode，下文序列同）记录中进行学习
蒙特卡罗属于无模型：即对马尔科夫决策过程的状态和回报一无所知
蒙特卡罗从完整的一系列记录中学习，而非自助法学习
蒙特卡罗使用最简单的思想：价值等于平均回报
注意：蒙特卡罗方法仅仅适用于带有序列化的马尔科夫决策过程
- 即所有序列都具有终结状态

蒙特卡罗策略评价（Monte-Carlo Policy Evaluation）

目标：在策略\(\pi\)生成的一系列记录中学习\(v_\pi\)

\[S_1,A_1,R_2,\dots,S_k\sim\pi
\]
返回回报照旧为所有衰退的回报的总和

\[G_t = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-1}R_T
\]
价值函数照旧为期望的返回回报

\[V_\pi(s) = \mathbb{E}_\pi[G_t|S_t = s]
\]
蒙特卡罗策略评价采用经验均值返回回报而非是期望返回回报

蒙特卡罗首次评价法（First-Visit Monte-Carlo Policy Evaluation）

为了评价一个状态\(s\)
第一时间戳\(t\)即是状态\(s\)在序列中被首次访问到的时间戳
计数器更新\(N(s)\leftarrow N(s) + 1\)
总回报更新\(S(s)\leftarrow S(s) + G_t\)
价值通过均值返回回报进行估计\(V(s)=\frac{S(s)}{N(s)}\)
基于大数定理（Law of Large Numbers），\(V(s)\rightarrow v_\pi(s) \ \ as \ \ N(s)\rightarrow\infty\)

蒙特卡罗每次评价法（Every-Visit Monte-Carlo Policy Evaluation）

为了评价一个状态\(s\)
时间戳\(t\)即是状态\(s\)在序列中被每次访问到的时间戳
计数器更新\(N(s)\leftarrow N(s) + 1\)
总回报更新\(S(s)\leftarrow S(s) + G_t\)
价值通过均值返回回报进行估计\(V(s)=\frac{S(s)}{N(s)}\)
基于大数定理（Law of Large Numbers），\(V(s)\rightarrow v_\pi(s) \ \ as \ \ N(s)\rightarrow\infty\)

均值渐进(Incremental Mean)

对于序列\(x_1,x_2,\dots\)的均值\(\mu_1,\mu_2,\dots\)可以这样渐进地计算

\[\begin{align}
\mu_k & = \frac{1}{k}\sum^k_{j=1}x_j \\
& = \frac{1}{k}\Bigg(x_k + \sum^{k-1}_{j = 1}x_j \Bigg) \\
& = \frac{1}{k} (x_k + (k-1)\mu_{k-1}) \\
& = \mu_{k-1} + \frac{1}{k}(x_k - \mu_{k-1})
\end{align}
\]

渐进蒙特卡罗更新（Incremental Monte-Carlo Updates）

基于序列\(S_1,A_1,R_2\dots,S_T\)渐进地更新\(V(s)\)

对于状态\(S_t\)及其返回回报\(G_t\)

\[\begin{align}
N(S_t) & \leftarrow N(S_t) + 1 \\
V(S_t) & \leftarrow V(S_t) + \frac{1}{N(S_t)}(G_t - V(S_t))
\end{align}
\]

对于非静态问题，这个渐进更新可以用于拟合一个动态的均值，i.e 去除旧序列的影响

\[V(S_t) \leftarrow V(S_t) + \alpha(G_t - V(S_t))
\]

时序差分学习（Temporal-Difference Learning）

TD法直接从序列化的记录中学习
TD是无模型的，也就是对于马尔科夫决策过程的转移和回报一无所知
TD直接从不完整的序列学习，通过自助法
TD通过估计去更新估计

蒙特卡罗比较时序差分

目标：在线通过策略\(\pi\)下产生的序列记录对\(v_\pi\)进行学习
渐进地进行每次访问蒙特卡罗
- 通过实际返回回报\(G_t\)去更新价值\(V(S_t)\)
  \[V(S_t)\leftarrow V(S_t) + \alpha(\color{red}{G_t} - V(S_t))
  \]
最简单的时序差分学习算法：\(TD(0)\)
- 通过估计的返回回报\(R_{t+1} + \gamma V(S_{t+1})\)去更新价值\(V(S_t)\)
  
  \[V(S_t)\leftarrow V(S_t) + \alpha(\color{red}{R_{t+1} + \gamma V(S_{t+1})} - V(S_t))
  \]
- \(R_{t+1} + \gamma V(S_{t+1})\)则称为时序差分目标（TD target）
- \(\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\)则称为时序差分误差（TD error）

时序分析比起蒙特卡罗的优点就是无需达到终止状态就可以立即更新价值函数

David Silver的至理名言：要是你凉了，你就更新不了价值函数了。

【例子】

蒙特卡罗与时序差分的优缺点

时序差分在得知最终结果之前就可以进行学习
- 时序差分从每一步中直接在线学习
- 蒙特卡罗必须直到序列结尾的返回回报是已知的
时序差分直接学习即使没有最终结果
- 时序差分直接从不完整的序列中学习
- 蒙特卡罗只能从完整序列中学习
- 时序差分能够在连续的（非终止的）环境中学习
- 蒙特卡罗只能从序列化的（终止的）的环境中学习

偏差与方差之权衡

返回回报\(G_t = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-1}R_T\)即是\(v_\pi\)的无偏差估计
真实的差分时序目标\(R_{t+1}+\gamma v_\pi(S_{t+1})\)即是\(v_\pi(S_t)\)的无偏差估计
非真实的差分时序目标则是\(R_{t+1}+\gamma V_\pi(S_{t+1})\)即是\(v_\pi(S_t)\)的偏差估计
时序差分显然比返回回报拥有更低的方差
- 返回回报取决于很多的随机行动、转移概率、回报
- 时序差分目标取决于一个随机的行为、转移概率、回报

因此

蒙特卡罗拥有高方差、零偏差
- 收敛性更强
- （甚至可以函数拟合）
- 但对初值不太敏感
- 容易理解与使用
时序差分拥有低方差、稍微的偏差
- 一般而言比蒙特卡罗更高效
- TD(0)收敛于\(v_\pi(s)\)
- （但并非总是能函数近似），按照David Silver的解释就是不完全适用于所有场合的\(v_\pi\)估计
- 对初值比较敏感

批量蒙特卡罗与时序差分

蒙特卡罗与时序差分的收敛性：\(V(s)\rightarrow v_\pi(s) \ \ as \ \ experience \rightarrow \infty\)
但如果对于一个无穷记录的批量解决方案呢？

\[s^1_1,a^1_1,r_2^1,\dots,s_{T_1}^1 \\
\vdots \\
s_1^K, a_1^K, r_2^K,\dots,s_{T_k}^K
\]
例如重复地从序列\(k\in[1,K]\)中采样
然后对序列\(k\)应用蒙特卡罗与时序差分

[David Siler这里举了一个例子来说明蒙特卡罗和时序差分对于无限重复序列的区别]

确定性等价（Certainty Equivalence）

蒙特卡罗通过最小化方差收敛于解决方案
- 最优拟合于观测到的返回回报
  
  \[\sum^K_{k=1}\sum^{T_k}_{t=1}(g_t^k - V(s_t^k)) ^ 2
  \]
- 在上述AB例子中，\(V(A) = 0\)
而TD(0)则收敛于最大似然马尔科夫模型的解
- 对于马尔科夫决策过程\(\mathcal{\langle S,A,\hat P,\hat R, \gamma\rangle}\)，最优拟合为
  
  \[\mathcal{
  \hat P ^a_{s,s'} = \frac{1}{N(s,a)}\sum^K_{k=1}\sum^{T_k}_{t=1} \mathbf 1(s^k_t, a^k_t, s^k_{t+1} = s,a,s') \\
  \hat R^a_s = \frac{1}{N(s,a)}\sum^K_{k=1}\sum^{T_k}_{t=1}\mathbf 1(s^k_t,a^k_t=s,a)r^k_t
  
  }
  \]
- 在上述AB例子，\(V(A)=0.75\)

比较总结

时序差分利用了马尔科夫性
- 因此在马尔科夫环境中的效率更高
而蒙特卡罗没有利用马尔科夫性
- 其在非马尔科夫环境中的效率会更高（按照David Silver的说法，一般非马尔科夫环境指的是不能完全观察的环境）

[这里David Silver用图像演示了蒙特卡罗、时序差分、动态规划三种求解方法]

自助法与采样（Bootstrapping and Sampling）

自助法：估计值也会参与模型更新
- 蒙特卡罗并非自助法
- 动态规划是自助法
- 时序差分是自助法
采样：通过采样的均值进行更新
- 蒙特卡罗就是采样
- 动态规划并没有采样
- 时序差分就是采样

[这里David Silver给了一张很意思的强化学习总结图表，然后有人问了为什么每次学习都是更精确的而不会倒退]

n步预测（n-Step Prediction）

如果时序差分目标是n步向前取样的（我们一般时序差分就是一步取样的）
- 那么当步数不限制的话就退化为蒙特卡罗算法了

n步返回回报（n-Step Return）

n步返回回报（\(n=1,2,\infty\)）即是：

\[\begin{align}
n=1\quad & (TD) & G^{(1)}_t & = R_{t+1} + \gamma V(S_{t+1}) \\
n=2\quad & & G^{(2)}_t & = R_{t+1} + \gamma R_{t+2} + \gamma^2 V(S_{t+2}) \\
\vdots & & \vdots& \\
n=\infty \quad & (MC) & G^{(\infty)}_t & = R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-1}R_T \\

\end{align}
\]
那么n步返回回报定义为

\[G^{(n)}_t = R_{t+1} + \gamma R_{t+2} + \dots + \gamma ^ {n-1}R_{t+n} + \gamma ^ n V(S_{t+n})
\]
n步时序差分学习

\[V(S_t)\leftarrow V(S_t) + \alpha \big(G_t^{(n)} - V(S_t)\big)
\]

n步平均返回回报（Averaging n-Step Returns）

我们可以对n步返回回报除以数量进行取平均
例如对2步返回回报以及4步返回回报去平均

\[\frac{1}{2}G^{(2)} + \frac{1}{2}G^{(4)}
\]
从两个返回回报中混合得到的信息
那么有办法高效地从所有时间缀中混合全部信息吗？

\(\lambda\)-返回回报（\(\lambda\)-return）

对于\(\lambda\)-返回回报\(G^\lambda_t\)混合了全部n步返回回报\(G^{(n)}_t\)
采取权重\((1-\lambda)\lambda^{n-1}\)

\[G^\lambda_t = (1-\lambda)\sum^\infty_{n=1}\lambda^{n-1}G^{(n)}_t
\]
Forward-view \(TD(0)\)

\[V(S_t)\leftarrow V(S_t) + \alpha\big(G^\lambda_t - V(S_t)\big)
\]

Forward-view TD(\(\lambda\))

通过\(\lambda\)-返回回报去更新价值函数
Forward-view前向观测去计算\(G^\lambda_t\)
与蒙特卡罗相似，只能通过完整序列去进行计算

Backward-view TD(\(\lambda\))

有效性追踪（Eligibility Traces）

对于序列2,2,2,1,3

那么3的发生应该归结于2还是1？

频率启发（Frequency Heuristic）：将归结为最频繁的状态
最近启发（Recency Heuristic）：将归结为最近的状态
而有效性追踪（Eligibility Traces）则包含了这两种启发

\[\begin{align}
E_0(s) &=0\\
E_t(s) &= \gamma\lambda E_{t-1}(s) + \mathbf1(S_t=s)
\end{align}
\]
Backward-view TD(\(\lambda\))中，我们对于每个状态\(s\)应用有效性追踪
然后再更新所有状态\(s\)的\(V(s)\)
更新时与时序差分误差\(\delta_t\)和有效性追踪\(E_t(s)\)成正比

\[\begin{align}
\delta_t & = R_{t+1}+\lambda V(S_{t+1}) - V(S_t) \\
V(t)&\leftarrow V(s) + \alpha\delta_tE_t(s)
\end{align}
\]

TD(\(\lambda\))与TD(0)

当\(\lambda = 0\)，仅目前状态会进行更新

\[\begin{align}
E_t(s) & = \mathbf1(S_t=s) \\
V(s)& \leftarrow V(s) + \alpha\delta_tE_t(s)
\end{align}
\]

此时与TD(0)是完全一致的
\[V(S_t)\leftarrow V(S_t) + \alpha\delta_t
\]

TD(\(\lambda\))与蒙特卡罗

当\(\lambda=1\)，有效性追踪一直到序列的尽头
在序列化的环境中采用离线更新
更新一个序列的时候，对于\(TD(1)\)的全部更新和其在蒙特卡罗的全部更新完全一致
原理：
离线更新的总和由forward-view和backward-viewTD(\(\lambda\))组成

\[\sum^T_{t=1}\alpha\delta_tE_t(s) = \sum^T_{t=1}\alpha\bigg(G^\lambda_t - V(S_t)\bigg)\mathbf1(S_t=s)
\]

前向和后向TD(\(\lambda\))的总结

	\(\lambda=0\)	\(\lambda\in(0,1)\)	\(\lambda=1\)
Backward View	TD(0)	TD(\(\lambda\))	TD(1)
Forward View	TD(0)	Forward TD(\(\lambda\))	蒙特卡罗
Exact Online	TD(0)	Exact TD(\(\lambda\))	Exact TD(1)

机器学习 | 强化学习（3） | 无模型预测（Model-Free Prediction）的更多相关文章

强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Base ...
强化学习之免模型学习（model-free based learning）
强化学习之免模型学习(model-free based learning) ------ 蒙特卡罗强化学习与时序查分学习 ------ 部分节选自周志华老师的教材<机器学习> 由于现 ...
时间序列深度学习：seq2seq 模型预测太阳黑子
目录时间序列深度学习:seq2seq 模型预测太阳黑子学习路线商业中的时间序列深度学习商业中应用时间序列深度学习深度学习时间序列预测:使用 keras 预测太阳黑子递归神经网络设置.预处 ...
强化学习 3—— 使用蒙特卡洛采样法（MC）解决无模型预测与控制问题
一.问题引入回顾上篇强化学习 2 -- 用动态规划求解 MDP我们使用策略迭代和价值迭代来求解MDP问题 1.策略迭代过程: 1.评估价值 (Evaluate) \[v_{i}(s) = \sum_ ...
ICML 2018 | 从强化学习到生成模型：40篇值得一读的论文
https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...
AI之强化学习、无监督学习、半监督学习和对抗学习
1.强化学习 @ 目录 1.强化学习 1.1 强化学习原理 1.2 强化学习与监督学习 2.无监督学习 3.半监督学习 4.对抗学习强化学习(英语:Reinforcement Learning,简称 ...
Predicting effects of noncoding variants with deep learning–based sequence model | 基于深度学习的序列模型预测非编码区变异的影响
Predicting effects of noncoding variants with deep learning–based sequence model PDF Interpreting no ...
backbone学习笔记：模型（Model）（2）属性验证
Backbone的属性验证有2种方法: 1.Backbone自带简单的验证方法,但是验证规则需要自己实现通过validate()方法进行验证,验证规则写在此方法里. var RoomModel = ...
backbone学习笔记：模型（Model）（1）基础知识
backbone为复杂Javascript应用程序提供MVC(Model View Controller)框架,框架里最基本的是Model(模型),它用来处理数据,对数据进行验证,完成后台数据与前台数 ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...

随机推荐

关于 Envoy on Windows
Window Image in hub.cocker.com envoy 的镜像位于 https://hub.docker.com/u/envoyproxy 之下,其中 Windows 包括如下 4 ...
ng-alain 创建页面
https://ng-alain.com/cli/generate/zh https://ng-alain.com/docs/new-page/zh 默认情况下,创建模块 trade,创建在目录 sr ...
【C#】【平时作业】习题-4-流程控制
T1 创建一个Windows应用程序,先输入年龄值,再判断是否大于18,最后显示判断结果,运行效果如图所示. 提示: 注意保持逻辑完整: 引用数据需要明确出处. [程序代码] private void ...
【C#】【报错解决】找不到请求的Net Framework Data ProVider。可能没有安装。
如题报错截图如上,解决方法如下第一步:找到[引用]中的MySql.Data中的版本号第二步,在Web.config中添加如下配置 <system.data> <DbProvide ...
【Docker】安装镜像报错warning: /var/cache/yum/x86_64/7/extras/packages/epel-release-7-11.noarch.rpm: Header
这个的解决方法就是加上这个就可以了
RepeatReadRequestWrapper
package cn.service.web.common.filter; import com.alibaba.fastjson.JSON; import org.apache.commons.io ...
OpenWrt安装腾讯云DDNS插件
1.插件介绍 OpenWRT TencentDDNS插件是一款腾讯云研发的,自动映射动态公网IP至用户指定的DNSPod域名解析记录的官方插件. 标题名称中文名称腾讯云DDNS插件英文名称 l ...
Linux C语言面试考点
数组数组初始化方法 /* 以下为自动类型 *//* 一维数组 */int arr[] = {1, 3, 5}; //不指定长度,由编译器自动计算int arr[5] = {0, }; //指定长度 ...
学Shiro完结版-2
第四章 INI配置--<跟我学Shiro> 之前章节我们已经接触过一些INI配置规则了,如果大家使用过如Spring之类的IoC/DI容器的话,Shiro提供的INI配置也是非常类似的,即 ...
深⼊mysqlONDUPLICATEKEYUPDATE语法的分析
深⼊mysqlONDUPLICATEKEYUPDATE语法的分析mysql "ON DUPLICATE KEY UPDATE" 语法如果在INSERT语句末尾指定了ON DUPLI ...

机器学习 | 强化学习（3） | 无模型预测（Model-Free Prediction）