动态规划求解（Planning by Dynamic Programming）

动态规划概论

动态（Dynamic)：序列性又或是时序性的问题部分
规划（Programming）：最优化一个程序（Program），i.e 一种策略
- 线性规划（Linear Programming）

显然马尔科夫决策过程就符合动态规划的顺序

因为相信带伙对于DP都是懂哥了，这里就没记录多少东西

策略评价（Policy Evaluation）

问题：评价一个给定的策略\(\pi\)
解决：使用贝尔曼期望的一个状态进行迭代
\(v_1\rightarrow v_2\rightarrow \dots\rightarrow v_\pi\)
同步状态更新
- 对于每一代\(k+1\)
- 一切状态\(s\in\mathcal{S}\)
- 从\(v_k(s')\)更新\(v_{k+1}(s)\)
- 其中\(s'\)是\(s\)的后续节点
后面会提到非同步的状态更新
\(v_\pi\)的收敛性也可以得到证明

由贝尔曼方程，我们得到：

\[\begin{align}
v_{k+1}(s) & = \mathcal{\sum_{a\in A}\pi(a|s)\Bigg( R^a_s + \gamma\sum_{s'\in S} P ^ a_{ss'}v_k(s') \Bigg)}\\
v^{k+1} & = \mathcal{R ^ \pi + \gamma P ^ \pi v ^ k}
\end{align}
\]

值得留意的是，上一节课谈到最优策略是固定的，为此我们的\(\pi\)是对某一个最优动作的选择，即\(\pi(a|s)\)本质上是退化类似于\([0 \ 0 \ 1 \ 0 \ 0\dots]\)的分布，或者说指定一个\(s\)，可以用一个数字来表示\(\pi(a|s)\)。

[这里是习题/样例]

策略迭代（Policy Iteration）

给定策略\(\pi\)
- 评价策略\(\pi\)
- \[v_\pi(s) = \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \dots|S_t = s]
  \]
- 通过过贪心算法改进策略
- \[\pi' = greedy(s_\pi)
  \]
最终经过改进的策略乃是最优的，\(\pi'=\pi^*\)
一般来说，多轮的迭代是必要的
策略迭代必定收敛于\(\pi^*\)

[这里是样例，习题]

对于一个确定的策略，\(a = \pi(s)\)
我们通过贪心算法改进策略

\[\pi'(s) = \mathop{argmax}_{a\in A} q_\pi(s,a)
\]
每一步从每一个状态去更新价值函数

\[q_\pi(s, \pi'(s)) = \max_{a \in A} q_\pi(s,a)\ge q_\pi(s,\pi(s))=v_\pi(s)
\]
因此去更新状态-价值函数，\(v_{\pi'}(s)\ge v_\pi(s)\)

\[\begin{align}
v_\pi(s) & \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t = s] \\
& \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1}+\gamma q_\pi(S_{t+1},\pi'(S_{t+1})) |S_t = s]\\
& \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1} + \gamma R_{t+2} +\gamma^2 q_\pi(S_{t+1},\pi'(S_{t+1})) |S_t = s] \\
& \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1} + \gamma R_{t+2} +\dots |S_t = s] \\
& = v_{\pi'}(s)
\end{align}
\]
若迭代没有进一步改进，即：

\[q_\pi(s,\pi'(s)) = \max_{a\in A} q_\pi(s,a) = q_\pi(s,\pi(s))=v_\pi(s)
\]
那么贝尔曼最优方程即得解：

\[v_\pi(s)=\max_{a\in A}q_\pi(s,a)
\]
因此\(v_\pi(s)=v_*(s),\forall s \in S\)

终止条件

策略评价是否真的需要完全收敛于\(v_\pi\)呢？
或者说我们是否可以人为地规定一个终止条件
- e.g. 价值函数的\(\epsilon\)-收敛
又或者\(k\)轮迭代之后即可终止
- 例如说之前给出的gridworld样例中\(k=3\)的情况中就已经是最优策略了
为何不一次迭代就全部更新策略
- i.e. 第一代就停止更新了
- P.S. 本质上是价值递归（Value Iteration），下面章节会讲的

价值迭代（Value Iteration）

对于任何一个最优策略都可以划分为以下两个部分

最优动作\(A_*\)
最优策略下跟随的下一个后继状态\(S'\)

最优化原理：

当一个策略\(\pi(a|s)\)从状态\(s\)出发达到最优价值，即\(v_\pi(s)=v_*(s)\)

有且仅有：

对于所有能够从状态\(s\)转移到的状态\(s'\)
\(\pi\)从\(s'\)出发也得到了达到最优价值，即\(v_\pi(s')=v_*(s')\)

因此

如果我们能求解子问题\(s_*(s')\)
那么\(v_*(s)\)的解只需要向前一步就能解出来

\[v_*(s) \leftarrow \mathcal{\max_{a\in A} R^a_s + \gamma \sum_{s'\in S}P^a_{ss'}v_*(s')}
\]
此处就是价值迭代的核心思想：利用这个公式迭代更新公式
原理阐释：从最终的回报开始进行反向传播
对于循环、随机的马尔科夫决策过程同样适用

算法原理：

问题：寻找最优策略\(\pi\)
解决方案：迭代利用贝尔曼最优备份方案
\(v_1\rightarrow v_2\rightarrow\dots\rightarrow v_*\)
采用同步备份更新
- 对于每一代\(k+1\)
- 一切状态\(s\in S\)
- 从\(v_k(s')\)更新\(v_{k+1}(s)\)
\(v_*\)的收敛后面会证明
相对于策略迭代，并不显式输出一个策略
中间状态的价值函数并不表示任何有意义的策略

公式原理：

\[v_{k+1}(s) = \mathcal{\max_{a\in A}\Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{ss'} v_k(s')\Bigg)}
\]

矩阵形式：

\[v_{k+1} = \mathcal{\max_{a\in A} R^a + \gamma P^a v_k}
\]

一个demo

http://www.cs.ubc.ca/~poole/demos/mdp/vi.html

总结概要

问题	贝尔曼方程	算法
预测问题	贝尔曼期望方程	迭代策略评价
决策问题	贝尔曼期望方程+贪心算法策略提升	策略迭代
决策问题	贝尔曼最优方程	价值迭代

基于状态-价值函数\(V_pi(s)\)或者是\(s_*(s)\)的算法
时间复杂度：每一代\(O(mn^2)\)，其中\(m\)为动作、\(n\)为状态
基于动作-价值函数\(q_\pi(s,a)\)或者是\(q_*(s,a)\)
时间复杂度：每一代\(O(m^2 n^2)\)

动态规划的拓展

目前用到的DP都是同步备份更新的
而异步更新DP则通过某种顺序独立更新每一个状态
对于每一个选定的状态采取最适合的备份进行更新
能够显著地减少计算的消耗
若所有状态一直被选中则确保收敛了

三种异步动态规划的简单思想

原地DP
优先扫描
实时DP

原地DP

一般来说，价值迭代都会存储着两份价值函数的拷贝

\[v_{new}(s) \leftarrow \mathcal{ \max_{a\in A} \Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{sss}v_{old}(s') \Bigg)}
\]

其中\(v_{old}\)和\(v_{new}\)之间就是两个备份

而原地DP则只存储一份价值函数的备份：

\[v(s) \leftarrow \mathcal{ \max_{a\in A} \Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{sss}v(s') \Bigg)}
\]

直接就使用最新的\(v(s')\)，因为包含更多信息，但是难点在于如何安排更新顺序

一般会采取贝尔曼误差去选择要更新价值函数

\[\mathcal{\Bigg| \max_{a\in A} \Bigg(R^a_s + \gamma\sum_{s'\in S}P^a_{ss'}v(s') \Bigg) - v(s) \Bigg|}
\]

DP利用全广度备份
在中等规模问题相当有效
但是在高维数据会显得低效
通过邻接链表的形式可以改造DP

机器学习 | 强化学习（2） | 动态规划求解（Planning by Dynamic Programming）的更多相关文章

动态规划算法详解 Dynamic Programming
博客出处: https://blog.csdn.net/u013309870/article/details/75193592 前言最近在牛客网上做了几套公司的真题,发现有关动态规划(Dynamic ...
David Silver强化学习Lecture3：动态规划
课件:Lecture 3: Planning by Dynamic Programming 视频:David Silver强化学习第3课 - 动态规划(中文字幕) 动态规划动态(Dynamic): ...
强化学习三：Dynamic Programming
1,Introduction 1.1 What is Dynamic Programming? Dynamic:某个问题是由序列化状态组成,状态step-by-step的改变,从而可以step-by- ...
DRL强化学习：
IT博客网热点推荐推荐博客编程语言数据库前端 IT博客网 > 域名隐私保护免费 DRL前沿之:Hierarchical Deep Reinforcement Learning 来源: ...
ICML 2018 | 从强化学习到生成模型：40篇值得一读的论文
https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...
动态规划(Dynamic Programming)算法与LC实例的理解
动态规划(Dynamic Programming)算法与LC实例的理解希望通过写下来自己学习历程的方式帮助自己加深对知识的理解,也帮助其他人更好地学习,少走弯路.也欢迎大家来给我的Github的Le ...
最优化问题 Optimization Problems & 动态规划 Dynamic Programming
2018-01-12 22:50:06 一.优化问题优化问题用数学的角度来分析就是去求一个函数或者说方程的极大值或者极小值,通常这种优化问题是有约束条件的,所以也被称为约束优化问题. 约束优化问题( ...
动态规划系列（零）—— 动态规划(Dynamic Programming)总结
动态规划三要素:重叠⼦问题.最优⼦结构.状态转移⽅程. 动态规划的三个需要明确的点就是「状态」「选择」和「base case」,对应着回溯算法中走过的「路径」,当前的「选择列表」和「结束条件」. 某种 ...
强化学习（三）用动态规划（DP）求解
在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, ...
【转载】强化学习（三）用动态规划（DP）求解
原文地址: https://www.cnblogs.com/pinard/p/9463815.html ------------------------------------------------ ...

随机推荐

vue3 重置reactive数据
有一个formData数据字段,使用class创建一份初始数据与其对应,使用Object.assign进行重置 import { reactive } from 'vue' class InitFor ...
Collector的配置和使用
目录 Collector的配置和使用 Collector配置 Receivers Processors Exporters Service Extensions 使用环境变量 Collector的使用 ...
如何在 Linux 中使用 grep 命令的排除功能
来自grep 是一种强大的命令行工具,用于在一个或多个输入文件中搜索与正则表达式匹配的行,并将匹配的行标准输出.在本文中介绍如何在使用 grep 搜索时排除一个或多个单词或目录. 排除单词或多个条 ...
Java保留两位小数的几种写法总结
转载本文列举了几个方法: 1. 使用java.math.BigDecimal 2. 使用java.text.DecimalFormat 3. 使用java.text.NumberFormat 4. ...
Qt音视频开发49-通用截图截屏
一.前言采用了回调方式的视频通道,截图只需要对解析好的QImage对象直接保存即可,而对于句柄的形式,需要调用不同的处理策略,比如vlc需要用它自己提供的api接口函数libvlc_video_ta ...
记一次语音合成遇到的坑：PCM音频流转WAV
需求内容: 预合成音:支持将固定音合成并完成上传操作解决思路: 调用公有云识别引擎,获取识别引擎合成的音频流, 然后将音频流转成wav文件, 最后将文件上传到oss服务器上. 遇到的问题问题主要在 ...
由于OpenCV的#include <opencv2/opencv.hpp>文件没有放在所有的头文件之前所引起的编译时提示很多错误，如：filesystem.hpp(11,12): error C2144: 语法错误:“bool”的前面应有“;”error C4430: 缺少类型说明符 - 假定为 int。注意: C++ 不支持默认 int等
现象描述: 由于OpenCV的#include <opencv2/opencv.hpp>文件没有放在所有的其他OpenCV头文件之前所引起的编译时提示很多错误,如:filesystem.h ...
Ant和Ivy集成部署和使用
Apache Ivy是专门用来管理项目的jar包依赖的.我们知道Maven已经有很出色的这方面的功能,如果你已经在使用Maven,就没必要使用Ivy了.但是其实Maven除了这方面功能,还有很多强大的 ...
即时通讯技术文集（第29期）：IM开发技术合集(Part2) [共18篇]
为了更好地分类阅读 52im.net 总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第29 期. [- 1 -] 谈谈移动端 IM 开发中登录请求的优化 [链接] http://w ...
查看Android是否开机启动进入桌面
adb 或者串口终端 getprop sys.boot_completed 返回空代表没有进入桌面返回1代表已进入桌面

机器学习 | 强化学习（2） | 动态规划求解（Planning by Dynamic Programming）