Ⅶ. Policy Gradient Methods
Dictum:
Life is just a series of trying to make up your mind. -- T. Fuller
不同于近似价值函数并以此计算确定性的策略的基于价值的RL方法,基于策略的RL方法将策略的学习从概率集合\(P(a|s)\)变换成策略函数\(\pi(a|s)\),并通过求解策略目标函数的极大值,得到最优策略\(\pi^*\),主要用的是策略梯度方法(Policy Gradient Methods)。
策略梯度方法直接对随机策略\(\pi\)进行参数化为\(\pi(a|s,\theta)=\Pr\{A_t=a|S_t=s,\theta_t=\theta\}\),其中\(s\in\mathcal{S}\),\(a\in\mathcal{A}(s)\),权重参数向量\(\theta\in\mathbb{R}^{d^\prime}(d^\prime<<|\mathcal{S}|)\),参数化后的策略不再是一个概率集合,而是一个近似函数。
相比于基于价值的RL方法,策略梯度方法的优势如下:
- 基于价值的RL方法依赖于价值函数的估计;而对策略梯度方法,价值函数可以用于学习策略的参数,但没有直接的依赖关系
- 基于价值的RL方法为了寻找最优策略,使用了\(\epsilon\)-贪心策略以\(\epsilon\)的概率选择随机动作;而策略梯度方法可以直接近似一个确定的策略,因此,具有更好的收敛性
- 基于价值的RL方法更适用于离散的动作、状态空间,即使一些改进也需要将连续的动作空间离散化,但这样的映射呈指数形式,增加求最优解的难度;而策略梯度方法在高维或连续动作空间中有效
- 基于价值的RL方法通常只能学习最优策略是确定的,而策略梯度方法可以学习本身就具有随机性的最优策略
缺点如下:
- 策略梯度方法使用梯度上升,容易收敛到局部最优解
- 同时,对策略难以进行有效评估,因为它具有很高的方差
策略梯度定义
策略函数
策略函数是在确定在时序\(t\)的状态\(s\)下,采取任何科恩那个动作的具体概率,可以看作概率密度函数。假设策略被参数化为\(\pi(a|s,\theta)\),要求\(\pi(a|s,\theta)\)对参数\(\theta\)的偏导存在,则策略梯度
\triangledown\pi(a|s,\theta) & =\pi(a|s,\theta)\frac{\triangledown \pi(a|s,\theta)}{\pi(a|s,\theta)}\\
&=\pi(a|s,\theta)\triangledown\log \pi(a|s,\theta)
\end{aligned} \tag{7.1}
\]
\(\triangledown \log\pi(a|s,\theta)\)是得分函数(score function)。
- Softmax Policy
针对离散且有限的动作空间,可以使用softmax策略,对每一个“状态-动作”二元组估计一个参数化的数值偏好\(h(s,a,\theta)\in\mathbb{R}\),然后利用softmax函数对动作加权,如
\]
此时,每个动作的概率正比于指数权重\(\pi(a|s,\theta)\propto e^{h(s,a,\theta)}\)。若参数化的偏好值为特征\(x(s,a)\)的线性组合,则\(h(s,a,\theta)=\theta^\top x(s,a)\),此时得分函数为
\]
- Gaussian Policy
针对庞大或连续的动作空间,不能直接计算每一个动作的概率,但可以学习概率分布的统计。通常可以使用Gaussian策略,即对应的动作服从高斯分布\(a\sim\mathcal{N}(\mu,\sigma^2)\),则策略可以表示为
\]
其中,均值\(\mu:\mathcal{S}\times\mathbb{R}^{d^\prime}\to\mathcal{R}\)和方差\(\sigma:\mathcal{S}\times\mathbb{R}^{d^\prime}\to\mathcal{R}^+\)是两个参数化的函数近似器。因此,参数向量可以分为两部分\(\theta=[\theta_\mu,\theta_\sigma]^\top\),同时特征向量也分为两部分\(x=[x_\mu,x_\sigma]\),均值部分可以直接使用线性函数近似,而标准差部分要求为正数,可以使用线性函数的指数形式近似
\]
此时得分函数为
\]
性能度量
有了策略函数,还要定义性能度量来衡量策略的好坏。一般将智能体累积折扣奖励的期望作为目标函数,用\(J(\theta)\)表示。利用相关策略的目标函数\(J(\theta)\)的梯度上升更新\(\theta\),从而最大化奖励的期望:
\]
在幕式任务和连续任务这两种不同的情况下,性能度量的定义是不同的:
- 起始价值(start value)
针对幕式任务,将性能度量定义为该幕起始状态的价值,即
\]
其中,\(v_{\pi_\theta}\)是执行策略\(\pi_\theta\)的真实的价值函数。适用于能够产生完整经验轨迹的环境,即从状态\(s_0\)开始,以一定的概率分布达到终止状态时序段内,智能体获得的累积奖励。
- 平均价值(average value)
在连续任务中,智能体没有明确的起始状态,可以基于智能体在时序\(t\)的状态分布,针对每个可能的状态计算从\(t\)开始持续与环境交互所能获得的奖励,并按其状态的概率分布求和,即
\]
其中,\(s\sim d_{\pi_\theta}(s)\)表示状态\(s\)服从根据策略\(\pi_\theta\)生成的马尔科夫链的状态分布。
- 每时序平均奖励(average reward per time-step)
平均价值使用时序\(t\)下状态的平均价值,而每个时序的平均奖励使用时序\(t\)的状态下所有动作的期望,即在时序\(t\)先计算出智能体所有状态的可能性,然后计算出在每一种状态下采取所有可能动作获得的即时奖励,并按其对应的概率求和,即
J_{avgR}(\theta)\doteq\mathbb{E}_{\pi_\theta}[r] &=\sum_{s\in\mathcal{S}}d_{\pi_\theta}(s)\sum_{a\in\mathcal{A}}\pi_\theta(a|s)r_{s,a} \\
&=\sum_s d_{\pi_\theta}(s)\sum_a\pi(a|s)\sum_{s^\prime,r}p(s^\prime,r|s,a)r
\end{aligned}
\]
其中,\(d_{\pi_\theta}(s)=\lim_{t\to\infty}\Pr\{s_t=s|s_0,\pi_\theta\}\)是策略\(\pi_\theta\)下状态的稳态分布,\(s_0\)独立于所有策略,\(r_{s,a}\)是状态\(s\)下执行动作\(a\)得到的即时奖励。它实际上是单步MDPs,也就是从状态\(s\sim d(s)\)开始,根据策略\(\pi\)执行动作\(a\),此时得到了一个奖励值\(r\),完成了一个时序后结束。
策略梯度定理
已经给出了策略函数和性能度量,但通过调整策略参数\(\theta\)来保证性能得到改善仍存在疑点,主要在于策略的性能既依赖于动作的选择,也依赖于动作选择时所处的状态分布,而策略\(\pi(a|s)\)的定义是已知状态\(s\)下动作\(a\)的概率,因此策略对状态分布的影响未知。这里就引出了策略梯度定理(policy gradient theorem)。
Policy Gradient Theroem
对任何可微策略\(\pi(a|s,\theta)\),任意目标函数\(J(\theta)\)的梯度都可以表示为
证明见Append。
## 策略梯度算法
### REINFORCE:Monte Carlo Policy Gradient
REINFORCE是一种蒙特卡洛算法,一般应用于幕式任务,也需要在每个幕达到终止状态后才能进行更新。
根据策略梯度定理$(7.3)$,REINFORCE的目标函数梯度可以写成
\]
\begin{aligned}
\triangledown J(\theta)
&\propto\sum_s\mu(s)\sum_a\triangledown\pi(a|s,\theta)q_\pi(s,a) \
&=\mathbb{E}\pi \bigg[\sum_a q\pi (S_t,a) \triangledown \pi(a|S_t,\theta)\bigg] \
&=\mathbb{E}\pi \bigg[\sum_a \pi(a|S_t,\theta)q\pi(S_t,a)\frac{\triangledown \pi(a|S_t,\theta)}{\pi(a|S_t,\theta)}\bigg] \
&(A_t\sim\pi,因此\sum_a \pi(a|S_t,\theta)q_\pi(S_t,a)可以用q_\pi(S_t,A_t)代替)\
&=\mathbb{E}\pi\bigg[q\pi(S_t,A_t)\frac{\triangledown \pi(a|S_t,\theta)}{\pi(a|S_t,\theta)}\bigg]\
&(根据q_\pi的定义,q_\pi(S_t,A_t)=\mathbb{E}\pi[G_t|S_t,A_t],G_t是回报值)\
&=\mathbb{E}\pi\bigg[G_t\frac{\triangledown \pi(A_t|S_t,\theta)}{\pi(A_t|S_t,\theta)}\bigg]
\end{aligned}
根据式$(7.2)$的随机梯度上升,可以得到参数的更新如下
\]
\begin{aligned}
\theta_{t+1}
&\leftarrow \theta_t+\alpha G_t\frac{\triangledown \pi(A_t|S_t,\theta_t)}{\pi(A_t|S_t,\theta_t)} \
&\leftarrow\theta_t+\alpha G_t\triangledown \ln \pi(A_t|S_t,\theta_t) \
\end{aligned}
参数向量$\theta$更新的大小正比于回报$G_t$,使更新朝着更利于产生最大回报动作的方向;同时,它反比于策略$\pi(A_t|S_t,\theta)$,减少非最优动作因选择频率过大导致的性能影响。
### REINFORCE with Baseline
带基线的REINFORCE算法可以看作是一种推广形式,它是在策略梯度定理$(7.3)$上添加一个不随动作$a$变化的任意基线$b(s)$,形式如下
$$\triangledown J(\theta)\propto\sum_s\mu(s)\sum_a\big(q_\pi(s,a)-b(s)\big)\triangledown_\theta \pi(a|s,\theta)\]
基线\(b(s)\)不会影响策略的梯度,因为梯度方向的单位向量之和为0,即\(\triangledown_\theta \sum_a\pi(a|s,\theta)=\triangledown_\theta 1=0\)。通常可以将状态价值函数近似\(\hat{v}(S_t,w)\),\(w\in\mathbb{R}^m\)作为基线,改良后的REINFORCE算法参数更新为
\]
Append
策略梯度定理(证明)
- 幕式情况
\triangledown J(\theta)
&=\triangledown v_\pi(s) \\
&=\triangledown \bigg[\sum_a \pi(a|s)q_\pi(s,a)\bigg] \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown q_\pi(s,a)\Big] \\
&=\sum_a \Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown \sum_{s^\prime,r}p(s^\prime|s,a)(r+v_\pi(s^\prime))\Big] \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big] \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\sum_{a^\prime}[\triangledown\pi(a^\prime|s^\prime)q_\pi(s^\prime,a^\prime)+\pi(a^\prime|s^\prime)\sum_{s^{\prime\prime}}p(s^{\prime\prime}|s^\prime,a^\prime)\triangledown v_\pi(s^{\prime\prime})]\Big] \\
&=\sum_{x\in\mathcal{S}}\sum_{k=0}^\infty \Pr(s\to x,k,\pi)\sum_a\triangledown\pi(a|x)q_\pi(x,a) \\
&\propto\sum_s \mu(s)\sum_a\triangledown\pi(a|s)q_\pi(s,a) \\
\end{aligned}
\]
其中,\(\Pr(s\to x,k,\pi)\)表示在策略\(\pi\)下的\(k\)步内,状态\(s\)转移到状态\(x\)的概率。
- 连续情况
\triangledown v_\pi(s)
&=\triangledown \Big[\sum_a \pi(a|s)q_\pi(s,a)\Big] \\
&=\sum_a \Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown q_\pi(s,a)\Big] \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\triangledown\sum_{s^\prime,r}p(s^\prime,r|s,a)\big(r-r(\theta)+v_\pi(s^\prime)\big)\Big] \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)[-\triangledown r(\theta)+\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)]\Big] \\
\end{aligned}
\]
由上可以得到
\]
目标函数的梯度为
\triangledown J(\theta)
&=\triangledown r(\theta) \\
&=\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big]-\triangledown v_\pi(s) \\
&(对前一项添加状态的权重\mu(s),\sum_s\mu(s)=1,不影响梯度)\\
&=\sum_s\mu(s)\sum_a\Big[\triangledown\pi(a|s)q_\pi(s,a)+\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)\Big]-\triangledown v_\pi(s) \\
&=\sum_s\mu(s)\sum_a \triangledown\pi(a|s)q_\pi(s,a)+\mu(s)\sum_a\pi(a|s)\sum_{s^\prime}p(s^\prime|s,a)\triangledown v_\pi(s^\prime)-\mu(s)\sum_a \triangledown v_\pi(s) \\
&=\sum_s\mu(s)\sum_a\triangledown\pi(a|s)q_\pi(s,a)+\sum_{s^\prime}\mu(s^\prime)\triangledown v_\pi(s^\prime)-\sum_s\mu(s)\triangledown v_\pi(s) \\
&=\sum_s\mu(s)\sum_a\triangledown \pi(a|s)q_\pi(s,a)
\end{aligned}
\]
References
Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction (Second Edition). 2018.
Csaba Szepesvári. Algorithms for Reinforcement Learning. 2009.
Richard S. Sutton et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation. 2000.
Course: UCL Reinforcement Learning Course (by David Silver)
Ⅶ. Policy Gradient Methods的更多相关文章
- DRL之:策略梯度方法 (Policy Gradient Methods)
DRL 教材 Chpater 11 --- 策略梯度方法(Policy Gradient Methods) 前面介绍了很多关于 state or state-action pairs 方面的知识,为了 ...
- 深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods)
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
- 强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richa ...
- 强化学习七 - Policy Gradient Methods
一.前言 之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的ac ...
- [Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
- Policy Gradient Algorithms
Policy Gradient Algorithms 2019-10-02 17:37:47 This blog is from: https://lilianweng.github.io/lil-l ...
- (转)RL — Policy Gradient Explained
RL — Policy Gradient Explained 2019-05-02 21:12:57 This blog is copied from: https://medium.com/@jon ...
- Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C(3)
在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们 ...
- 强化学习(十三) 策略梯度(Policy Gradient)
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习.这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很 ...
随机推荐
- Hive 建模
date: 2020-05-24 17:55:00 updated: 2020-06-15 11:19:00 Hive 建模 1. 存储格式 textFile sequenceFile:一种Hadoo ...
- JUC---01阻塞队列(BlockingQueue)
一.什么是阻塞队列 阻塞队列是一个队列,在数据结构中起的作用如上图:当队列是空的,从队列中获取元素的操作将会被阻塞:当队列是满的,从队列中添加元素的操作将会被阻塞 1.为什么需要BlockingQue ...
- python实现银行系统模拟程序
银行系统模拟程序 关注公众号"轻松学编程"了解更多. 1.概述 使用面向对象思想模拟一个简单的银行系统,具备的功能:管理员登录/注销.用户开户.登录.找回密码.挂失.改密.查询 ...
- git使用心得体会
序言:身为软件工程的学生却一直没有接触Git,实在有些羞愧.得益于孟宁老师的课程,让我对Git有了初步的认识.同样借由此次机会正式接触Git这款程序员必备工具. 参考文献:https://mp.wei ...
- 数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要.而适合于Hadoop大数据生态体系的数据治理就非常的重要了. 大数据下的数据治理作为很多企业的一个巨大的 ...
- 完美实现CSS垂直居中的11种方法
在做前端项目时CSS的水平居中我们经常使用,但有时还会用到CSS垂直居中,对于小白来说这个就有些难度了,下面看一下我是如何实现的 本人前端小白,正在做一个小程序开发的项目,css样式调整搞的头都大了. ...
- 腾讯云--对象存储cos绑定自定义域名
1.登录腾讯云控制台,找到对象存储一栏 2.选择一个你想绑定域名的存储桶 3.进入你选择的存储桶,点击域名管理 4.选择自定义源站域名.在域名处填写你要设置的自定义域名,在源站类型处选择静态网站源站, ...
- 记一次ns3的安装过程
官方安装教程:https://www.nsnam.org/wiki/Installation 推荐使用Ubuntu18.04,Ubuntu20.04有些依赖无法下载. 准备工作 # 如果下载速度很慢, ...
- 日志切分神器--logrotate
Blog:博客园 个人 概述 还在自己写定时切分日志的脚本?试试系统自带的logrotate工具吧! logrotate是一个日志文件管理工具.用于分割日志文件,删除旧的日志文件,并创建新的日志文件, ...
- CentOS修改镜像源头
CentOS6改为阿里镜像源: 1. cd /etc/yum.repos.d 2. mv CentOS-Base.repo CenOS-Base.repo.bak 3. wget http://mir ...