动态规划求解(Planning by Dynamic Programming)

动态规划概论

  • 动态(Dynamic):序列性又或是时序性的问题部分
  • 规划(Programming):最优化一个程序(Program),i.e 一种策略
    • 线性规划(Linear Programming)

显然马尔科夫决策过程就符合动态规划的顺序

因为相信带伙对于DP都是懂哥了,这里就没记录多少东西

策略评价(Policy Evaluation)

  • 问题:评价一个给定的策略\(\pi\)
  • 解决:使用贝尔曼期望的一个状态进行迭代
  • \(v_1\rightarrow v_2\rightarrow \dots\rightarrow v_\pi\)
  • 同步状态更新
    • 对于每一代\(k+1\)
    • 一切状态\(s\in\mathcal{S}\)
    • 从\(v_k(s')\)更新\(v_{k+1}(s)\)
    • 其中\(s'\)是\(s\)的后续节点
  • 后面会提到非同步的状态更新
  • \(v_\pi\)的收敛性也可以得到证明

由贝尔曼方程,我们得到:

\[\begin{align}
v_{k+1}(s) & = \mathcal{\sum_{a\in A}\pi(a|s)\Bigg( R^a_s + \gamma\sum_{s'\in S} P ^ a_{ss'}v_k(s') \Bigg)}\\
v^{k+1} & = \mathcal{R ^ \pi + \gamma P ^ \pi v ^ k}
\end{align}
\]

值得留意的是,上一节课谈到最优策略是固定的,为此我们的\(\pi\)是对某一个最优动作的选择,即\(\pi(a|s)\)本质上是退化类似于\([0 \ 0 \ 1 \ 0 \ 0\dots]\)的分布,或者说指定一个\(s\),可以用一个数字来表示\(\pi(a|s)\)。

[这里是习题/样例]

策略迭代(Policy Iteration)

  • 给定策略\(\pi\)

    • 评价策略\(\pi\)

    • \[v_\pi(s) = \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \dots|S_t = s]
      \]
    • 通过过贪心算法改进策略

    • \[\pi' = greedy(s_\pi)
      \]
  • 最终经过改进的策略乃是最优的,\(\pi'=\pi^*\)

  • 一般来说,多轮的迭代是必要的

  • 策略迭代必定收敛于\(\pi^*\)

[这里是样例,习题]

  • 对于一个确定的策略,\(a = \pi(s)\)

  • 我们通过贪心算法改进策略

    \[\pi'(s) = \mathop{argmax}_{a\in A} q_\pi(s,a)
    \]
  • 每一步从每一个状态去更新价值函数

    \[q_\pi(s, \pi'(s)) = \max_{a \in A} q_\pi(s,a)\ge q_\pi(s,\pi(s))=v_\pi(s)
    \]
  • 因此去更新状态-价值函数,\(v_{\pi'}(s)\ge v_\pi(s)\)

    \[\begin{align}
    v_\pi(s) & \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t = s] \\
    & \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1}+\gamma q_\pi(S_{t+1},\pi'(S_{t+1})) |S_t = s]\\
    & \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1} + \gamma R_{t+2} +\gamma^2 q_\pi(S_{t+1},\pi'(S_{t+1})) |S_t = s] \\
    & \le q_\pi(s,\pi'(s)) = \mathbb{E}_{\pi'}[R_{t+1} + \gamma R_{t+2} +\dots |S_t = s] \\
    & = v_{\pi'}(s)
    \end{align}
    \]
  • 若迭代没有进一步改进,即:

    \[q_\pi(s,\pi'(s)) = \max_{a\in A} q_\pi(s,a) = q_\pi(s,\pi(s))=v_\pi(s)
    \]
  • 那么贝尔曼最优方程即得解:

    \[v_\pi(s)=\max_{a\in A}q_\pi(s,a)
    \]
  • 因此\(v_\pi(s)=v_*(s),\forall s \in S\)

终止条件

  • 策略评价是否真的需要完全收敛于\(v_\pi\)呢?
  • 或者说我们是否可以人为地规定一个终止条件
    • e.g. 价值函数的\(\epsilon\)-收敛
  • 又或者\(k\)轮迭代之后即可终止
    • 例如说之前给出的gridworld样例中\(k=3\)的情况中就已经是最优策略了
  • 为何不一次迭代就全部更新策略
    • i.e. 第一代就停止更新了
    • P.S. 本质上是价值递归(Value Iteration),下面章节会讲的

价值迭代(Value Iteration)

对于任何一个最优策略都可以划分为以下两个部分

  • 最优动作\(A_*\)
  • 最优策略下跟随的下一个后继状态\(S'\)

最优化原理:

当一个策略\(\pi(a|s)\)从状态\(s\)出发达到最优价值,即\(v_\pi(s)=v_*(s)\)

有且仅有:

  • 对于所有能够从状态\(s\)转移到的状态\(s'\)
  • \(\pi\)从\(s'\)出发也得到了达到最优价值,即\(v_\pi(s')=v_*(s')\)

因此

  • 如果我们能求解子问题\(s_*(s')\)

  • 那么\(v_*(s)\)的解只需要向前一步就能解出来

    \[v_*(s) \leftarrow \mathcal{\max_{a\in A} R^a_s + \gamma \sum_{s'\in S}P^a_{ss'}v_*(s')}
    \]
  • 此处就是价值迭代的核心思想:利用这个公式迭代更新公式

  • 原理阐释:从最终的回报开始进行反向传播

  • 对于循环、随机的马尔科夫决策过程同样适用

算法原理:

  • 问题:寻找最优策略\(\pi\)

  • 解决方案:迭代利用贝尔曼最优备份方案

  • \(v_1\rightarrow v_2\rightarrow\dots\rightarrow v_*\)

  • 采用同步备份更新

    • 对于每一代\(k+1\)
    • 一切状态\(s\in S\)
    • 从\(v_k(s')\)更新\(v_{k+1}(s)\)
  • \(v_*\)的收敛后面会证明

  • 相对于策略迭代,并不显式输出一个策略

  • 中间状态的价值函数并不表示任何有意义的策略

公式原理:

\[v_{k+1}(s) = \mathcal{\max_{a\in A}\Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{ss'} v_k(s')\Bigg)}
\]

矩阵形式:

\[v_{k+1} = \mathcal{\max_{a\in A} R^a + \gamma P^a v_k}
\]

一个demo

http://www.cs.ubc.ca/~poole/demos/mdp/vi.html

总结概要

问题 贝尔曼方程 算法
预测问题 贝尔曼期望方程 迭代策略评价
决策问题 贝尔曼期望方程+贪心算法策略提升 策略迭代
决策问题 贝尔曼最优方程 价值迭代
  • 基于状态-价值函数\(V_pi(s)\)或者是\(s_*(s)\)的算法
  • 时间复杂度:每一代\(O(mn^2)\),其中\(m\)为动作、\(n\)为状态
  • 基于动作-价值函数\(q_\pi(s,a)\)或者是\(q_*(s,a)\)
  • 时间复杂度:每一代\(O(m^2 n^2)\)

动态规划的拓展

  • 目前用到的DP都是同步备份更新的
  • 而异步更新DP则通过某种顺序独立更新每一个状态
  • 对于每一个选定的状态采取最适合的备份进行更新
  • 能够显著地减少计算的消耗
  • 若所有状态一直被选中则确保收敛了

三种异步动态规划的简单思想

  • 原地DP
  • 优先扫描
  • 实时DP

原地DP

一般来说,价值迭代都会存储着两份价值函数的拷贝

\[v_{new}(s) \leftarrow \mathcal{ \max_{a\in A} \Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{sss}v_{old}(s') \Bigg)}
\]

其中\(v_{old}\)和\(v_{new}\)之间就是两个备份

而原地DP则只存储一份价值函数的备份:

\[v(s) \leftarrow \mathcal{ \max_{a\in A} \Bigg( R^a_s + \gamma\sum_{s'\in S}P^a_{sss}v(s') \Bigg)}
\]

直接就使用最新的\(v(s')\),因为包含更多信息,但是难点在于如何安排更新顺序

一般会采取贝尔曼误差去选择要更新价值函数

\[\mathcal{\Bigg| \max_{a\in A} \Bigg(R^a_s + \gamma\sum_{s'\in S}P^a_{ss'}v(s') \Bigg) - v(s) \Bigg|}
\]
  • DP利用全广度备份
  • 在中等规模问题相当有效
  • 但是在高维数据会显得低效
  • 通过邻接链表的形式可以改造DP

机器学习 | 强化学习(2) | 动态规划求解(Planning by Dynamic Programming)的更多相关文章

  1. 动态规划算法详解 Dynamic Programming

    博客出处: https://blog.csdn.net/u013309870/article/details/75193592 前言 最近在牛客网上做了几套公司的真题,发现有关动态规划(Dynamic ...

  2. David Silver强化学习Lecture3:动态规划

    课件:Lecture 3: Planning by Dynamic Programming 视频:David Silver强化学习第3课 - 动态规划(中文字幕) 动态规划 动态(Dynamic): ...

  3. 强化学习三:Dynamic Programming

    1,Introduction 1.1 What is Dynamic Programming? Dynamic:某个问题是由序列化状态组成,状态step-by-step的改变,从而可以step-by- ...

  4. DRL强化学习:

    IT博客网 热点推荐 推荐博客 编程语言 数据库 前端 IT博客网 > 域名隐私保护 免费 DRL前沿之:Hierarchical Deep Reinforcement Learning 来源: ...

  5. ICML 2018 | 从强化学习到生成模型:40篇值得一读的论文

    https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...

  6. 动态规划(Dynamic Programming)算法与LC实例的理解

    动态规划(Dynamic Programming)算法与LC实例的理解 希望通过写下来自己学习历程的方式帮助自己加深对知识的理解,也帮助其他人更好地学习,少走弯路.也欢迎大家来给我的Github的Le ...

  7. 最优化问题 Optimization Problems & 动态规划 Dynamic Programming

    2018-01-12 22:50:06 一.优化问题 优化问题用数学的角度来分析就是去求一个函数或者说方程的极大值或者极小值,通常这种优化问题是有约束条件的,所以也被称为约束优化问题. 约束优化问题( ...

  8. 动态规划系列(零)—— 动态规划(Dynamic Programming)总结

    动态规划三要素:重叠⼦问题.最优⼦结构.状态转移⽅程. 动态规划的三个需要明确的点就是「状态」「选择」和「base case」,对应着回溯算法中走过的「路径」,当前的「选择列表」和「结束条件」. 某种 ...

  9. 强化学习(三)用动态规划(DP)求解

    在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, ...

  10. 【转载】 强化学习(三)用动态规划(DP)求解

    原文地址: https://www.cnblogs.com/pinard/p/9463815.html ------------------------------------------------ ...

随机推荐

  1. 开启生态新姿势 | 使用 WordPress 远程附件存储到 COS

    在看到这篇文章前,你大概已经听说过 WordPress 了,它是使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设属于自己的网站,也可以把 WordPres ...

  2. 鸿蒙应用开发从入门到入行 - 篇7:http网络请求

    鸿蒙应用开发从入门到入行 第七篇 - http网络请求 导读:在本篇文章里,您将掌握鸿蒙开发工具DevEco的基本使用.ArkUI里的基础组件,并通过制作一个简单界面掌握使用 HarmonyOS - ...

  3. Qt 5.15.6 发布

    一.前言 我们今天为商业许可证持有者发布了 Qt 5.15.6 LTS.作为补丁版本,Qt 5.15.6 没有添加任何新功能,但提供了错误修复和其他改进. 您可以使用维护工具在现有的在线安装中添加 Q ...

  4. 基于开源IM即时通讯框架MobileIMSDK:RainbowChat v11.5版已发布

    关于MobileIMSDK MobileIMSDK 是一套专门为移动端开发的开源IM即时通讯框架,超轻量级.高度提炼,一套API优雅支持UDP .TCP .WebSocket 三种协议,支持iOS.A ...

  5. 即时通讯安全篇(九):为什么要用HTTPS?深入浅出,探密短连接的安全性

    本文由ELab技术团队分享,原题"探秘HTTPS",有修订和改动. 1.引言 对于IM开发者来说,IM里最常用的通信技术就是Socket长连接和HTTP短连接(通常一个主流im会是 ...

  6. spark (一) 入门 & 安装

    目录 基本概念 spark 核心模块 spark core (核心) spark sql (结构化数据操作) spark streaming (流式数据操作) 部署模式 local(本地模式) sta ...

  7. 常见的运行窗口命令和命令提示符(DOS)命令

    常见的运行窗口命令和命令提示符(DOS)命令 常见的运行窗口命令 Win + R 打开运行窗口 基础应用程序启动命令 calc:启动计算器. notepad:打开记事本. mspaint:启动画图工具 ...

  8. 记录一下关于谷歌浏览器的开发者插件之vue-devtools

    在做vue进行开发的时候增加一个浏览器的插件进行开发可以做到游鱼得水,更加的舒适 在这里我留下一个git地址用来下载插件包 https://gitee.com/zhang_banglong/vue-d ...

  9. C# Winform cilent call SignalR

    一.SignalR是什么 Asp.net SignalR是微软为实现实时通信的一个类库.一般情况下,SignalR会使用JavaScript的长轮询(long polling)的方式来实现客户端和服务 ...

  10. 利用Linq Skip() Take()分页

    private void TestPostData() { string all = ""; List<int> listTimeCard = new List< ...