6-策略梯度方法（Policy Gradient Method）

策略梯度概论（Introduction）

基于策略（Policy-Based）的强化学习

对于上一节课（价值函数拟合）中采用参数\(\theta\)来估计价值和动作-价值函数

\[\begin{align}
V_\theta(S) & \approx V^\pi(s) \\
Q_\theta(s,a) & \approx Q^\pi(s,a)
\end{align}
\]
一个策略可以直接由价值函数生成
- 例如说基于\(\epsilon\)-贪婪策略
本节课我们直接对策略进行参数化

\[\pi_\theta(s,a)=\mathbb{P}[a|s,\theta]
\]
我们本节课再次聚焦于无模型的强化学习

基于价值（Value-Based）和基于策略的强化学习

基于价值
- 学习价值函数
- 显式的策略（例如\(\epsilon\)-贪婪策略）
基于策略
- 没有价值函数
- 学习策略
AC算法（Actor-Critic）
- 学习价值函数
- 学习策略
*因此AC算法属于既基于价值也基于策略的算法

基于策略强化学习的优点

优点：

更好的收敛性（更新更稳定，更平滑）
在高维或者连续的动作空间更为高效
可以基于随机策略进行学习

缺点：

典型地只能收敛于局部最优解而非全局最优解
当评价一个策略的时候也是相当典型地低效（因为梯度下降是一个慢速的稳定过程）与高方差

策略随机性的思考

如果一个模型拥有的绝对确定的策略（假若这些动作价值基本一致），那么在遭遇相同情况下作出一致的动作会导致长期困在某一个状态下（例如在一个能见度有限的迷宫中行走，基本都是一样的房间，那么确定性策略反而无法到达终点）

策略目标函数（Policy Objective Functions）

目标：给定一个策略\(\pi_\theta(s,a)\)基于参数\(\theta\)，然后寻找最优的参数\(\theta\)
但是如何去评估策略\(\pi_\theta\)的质量
对于一个序列化的环境，我们可以基于开始值

\[J_1(\theta) = V^{\pi_\theta}(s_1)=\mathbb{E_{\pi_\theta}}[v_1]
\]
对于连续的环境，那么就用平均值

\[J_{avV}(\theta)=\sum_s d^{\pi_\theta}(s)V^{\pi_\theta}
\]
或者每一个时间戳的平均回报

\[J_{avR}(\theta)=\sum_sd^{\pi_\theta}(s),\sum_a\pi_{\theta}(s,a)\mathcal{R^a_s}
\]
其中\(d^{\pi_\theta}(s)\)是基于策略\(\pi_\theta\)的马尔科夫链的一个静态分布

策略最优化

基于强化学习的策略属于优化问题
寻找\(\theta\)足以最大化\(J(\theta)\)
一些非基于梯度的优化方法
- 爬山法（Hill Climbing）
- SImplex法/amoeba法/Nelder Mead法
- 遗传算法（Genetic Algorithm）
基于梯度的优化方法往往更高效
- 梯度下降法（Gradient descent）
- 共轭梯度法（Conjugate gradient）
- Quasi-Newton法
我们主要研究梯度下降法，因为其有很多拓展形式
以及必须基于矩阵结构的方法

有限微分梯度策略（Finite Difference Policy Gradient）

梯度策略（Policy Gradient）

使\(J(\theta)\)为任意一个策略目标函数
策略梯度算法通过策略的梯度下降在\(J(\theta)\)中寻找一个局部最优解，策略的梯度即：

\[\Delta \theta = \alpha \nabla_\theta J(\theta)
\]
其中\(\nabla_\theta J(\theta)\)就被称为策略梯度

\[\nabla_\theta J(\theta)=
\left(\begin{array}{c}
\frac{\partial J(\theta)}{\partial \theta_1} \\
\vdots\\
\frac{\partial J(\theta)}{\partial \theta_n}
\end{array}\right)
\]
其中\(\alpha\)即是步长参数

通过有限微分去计算梯度

评估\(\pi_\theta(s,a)\)的策略梯度
对于每一维度\(k\in[1.n]\)
- 估算目标函数的第k个偏导数
- 也就是：用一个小的数值\(\epsilon\)去变动第k维的\(\theta\)
  
  \[\frac{\partial J(\theta)}{\partial \theta_k}\approx \frac{J(\theta+\epsilon u_k)-J(\theta)}{\epsilon}
  \]
  
  其中\(u_k\)是只有第k维为1，其他维度为0的单位向量
利用n次评估来计算第n维度的策略梯度
简单，高噪音，并不是每次都高效
任意策略都适用，即使不可导

蒙特卡罗策略梯度（Monte-Carlo Policy Gradient）

似然率（Likelihood Ratios）

分数函数(Score Function)

我们现在基于微积分去计算策略梯度
假设策略\(\pi_\theta\)是一个可微分的且无论何时都是非零的
以及我们知道其梯度\(\nabla_\theta\pi_\theta(s,a)\)
似然率即是以下公式：

\[\begin{align}
\nabla_\theta\pi_\theta(s,a) & = \pi_\theta(s,a)\frac{\nabla_\theta\pi_\theta(s,a)}{\pi_\theta(s,a)} \\
& = \pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)
\end{align}
\]
那么分数函数即是\(\nabla_\theta\log\pi_\theta(s,a)\)

Softmax策略（Softmax Policy）

通过特征的线性组合\(\phi(s,a)^T\theta\)去为动作赋予权重
动作的概率将与指数化的权重成正比例

\[\pi_\theta(s,a)\propto e^{\phi(s,a)^T\theta}
\]
因此分数函数即是

\[\nabla_\theta\log\pi_\theta(s,a) = \phi(s,a)-\mathbb{E_{\pi_\theta}}[\phi(s,\cdot)]
\]

高斯策略（Gaussian Policy）

对于连续动作空间，高斯策略相对比较自然
均值是状态特征的线性组合\(\mu(s)=\phi(s)^T\theta\)
方差可以是固定的\(\sigma^2\)，也可以是一个参数化的形式
策略则是一个高斯分布，\(a\sim\mathcal{N}(\mu(s),\sigma^2)\)
那么其分数函数即是

\[\nabla_\theta\log\pi_\theta(s,a)=\frac{(a-\mu(s))\phi(s)}{\sigma^2}
\]

一步马尔科夫决策过程（One-Step MDPs）

定义一种简单的一步马尔科夫决策过程
- 从状态\(s\sim d(s)\)开始
- 一步之后就状态终结，并且回报\(r=\mathcal{R_{s,a}}\)
通过似然率去计算策略梯度

\[\begin{align}
J(\theta) & = \mathbb{E_{\pi_\theta}}[r] \\
& = \sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(s,a)\mathcal{R_{s,a}} \\
\nabla_\theta J(\theta) & = \sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)\mathcal{R_{s,a}} \\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)r]
\end{align}
\]

策略梯度理论（Policy Gradient Theorem）

策略梯度理论通过生成一个似然率去拟合一个多步马尔科夫决策过程（multi-step MDPs）
用长期价值\(Q^\pi(s,a)\)去替代瞬时回报\(r\)
策略梯度主要应用于开始状态目标，平均回报以及平均价值目标

原理：

对于任意可导的策略\(\pi_\theta(s,a)\)
对于任意策略目标函数\(J=J_1,J_{avR}\)亦或是\(\frac{1}{1-\gamma}J_{avV}\)
那么策略梯度为：

\[\nabla_\theta J(\theta)=\color{red}{\mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\ Q^{\pi_\theta}(s,a)]}
\]

蒙特卡罗策略梯度（REINFORCE算法）

效率较低，迭代代数较大
通过随机梯度下降去更新参数
基于梯度策略理论
使用一个返回回报\(v_t\)作为\(Q^{\pi_\theta}(s_t,a_t)\)的无偏取样

\[\Delta\theta_t = \alpha\nabla_\theta\log\pi_\theta(s_t,a_t)v_t
\]

function REINFORCE

随机初始化\(\theta\)

for 对于每一个序列 \(\{s_1,a_1,r_2,\dots,s_{T-1},a_{T-1},r_T\}\sim\pi_\theta\) do

for \(t=1\) to \(T-1\) do

\(\theta\leftarrow\theta+\alpha\nabla_{\theta}\log\pi_{\pi}(s_t, a_t)v_t\)

end for

return \(\theta\)

end function

Actor-Critic策略梯度

基于Critic算法以减少方差

蒙特卡罗策略梯度法具有较高的方差
我们将采用critic算法以估计动作-价值函数

\[Q_w(s,a) \approx Q^{\pi_\theta(s,a)}
\]
对于Actor-critic算法（也称AC算法）一般带有两组参数
- Critic 更新动作-价值函数的参数\(w\)
- Actor 间接基于critic，更新策略参数\(\theta\)
对于AC算法基于一个策略梯度的估计

\[\begin{align}
\nabla_\theta J(\theta)&\approx\mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a) \ Q_w(s,a)] \\
\Delta\theta & =\alpha\nabla_\theta\log\pi_\theta(s,a)\ Q_w(s,a)
\end{align}
\]

AC算法中的critic指的是不进行任何决策，而只是对行为进行评价，而actor间接基于critic进行决策

估计动作-价值函数

Critic算法解决着一个熟悉的问题：即策略评估
在目前策略参数\(\theta\)下的策略\(\pi_\theta\)有多好？
该问题在前两节课已经探讨过了，如：
- 蒙特卡罗策略评估
- 时序差分学习
- \(TD(\lambda)\)
当然同样也可以用最小二乘策略评估

动作-价值 Actor-Critic

对于一个简单的actor-critic算法乃是基于动作-价值critic
通过线性函数进行拟合：\(Q_w(s,a)=\phi(s,a)^Tw\)
- Critic 通过线性\(TD(0)\)去更新\(w\)
- Actor 通过策略梯度去更新\(\theta\)

function QAC

初始化 s,\(\theta\)

取样 \(a\sim\pi_\theta\)

for 每一步 do

取样回报\(r=\mathcal{R^a_s}\)，取样转移状态\(s'\sim\mathcal{P^a_s}\)

取样动作\(a'\sim\pi_\theta(s',a')\)

\(\delta = r + \gamma Q_w(s',a')-Q_w(s,a)\)

\(\theta=\theta+\alpha\nabla_\theta\log\pi_\theta(s,a)Q_w(s,a)\)

\(w\leftarrow w+\beta\delta\phi(s,a)\)

\(a\leftarrow a'\)，\(s\leftarrow s'\)

end for

end function

兼容函数拟合（Compatible Function Approximation）

试图·去估计一个策略梯度比如会产生爬偏差
对于一个偏差策略梯度有时候并不能找到合适的算法
- 比如说：如果\(Q_w(s,a)\)的特征是有所失真的话，在矩阵方格模型中会难以奏效
不过幸运的是，如果我们能小心翼翼地选择价值函数进行拟合
并且避免产生一切偏差
即我们始终没有偏离一个精确的策略梯度

兼容函数拟合定义：

如果满足以下两个条件：

价值函数拟合对于策略是兼容的

\[\nabla_wQ_w(s,a) = \nabla_\theta\log\pi_\theta(s,a)
\]
价值函数的\(w\)能够最小化均方差（MSE）

\[\epsilon = \mathbb{E_{\pi_\theta}}[(Q^{\pi_\theta}(s,a)-Q_w(s,a))^2]
\]

那么其策略梯度是精确的

\[\nabla_\theta J(\theta) = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\ Q_w(s,a)]
\]

兼容函数定理的证明

若\(w\)是被选中用于最小化均方差（MSE），即\(\epsilon\)的梯度，也就是\(w\)要为0

\[\begin{align}
\nabla_w \epsilon & = 0 \\
\mathbb{E_{\pi_\theta}}[(Q^\theta(s,a)-Q_w(s,a))\nabla_wQ_w(s,a)] & = 0 \\
\mathbb{E_{\pi_\theta}}[(Q^\theta(s,a)-Q_w(s,a))\nabla_\theta\log\pi_\theta(s,a)] & = 0 \\
\mathbb{E_{\pi_\theta}}[Q^\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)] & = \mathbb{E_{\pi_\theta}}[Q_w(s,a)\nabla_\theta\log\pi_\theta(s,a)]
\end{align}
\]
为此\(Q_w(s,a)\)可以直接代替策略梯度

\[\nabla_\theta J(\theta) = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\ Q_w(s,a)]
\]

改进Critic函数

通过Baseline去降低方差

我们从策略梯度中减去一个baseline函数
这样就可以在降低方差的同时又不改变期望

\[\begin{align}
\mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)B(s)] &=\sum_{s\in S}d^{\pi_\theta}(s)\sum_a\nabla_\theta\pi_\theta(s,a)B(s) \\
& = \sum_{s\in S}d^{\pi_\theta}(s)B(s)\nabla_\theta\sum_{a\in A}\pi_\theta(s,a)\\
& = 0
\end{align}
\]
对于一个性质良好的baseline则是一个状态-价值函数\(B(s)=V^{\pi_\theta}(s)\)
为此我们可以通过优势函数\(A^{\pi_\theta}(s,a)\)重写策略梯度

\[A^{\pi_\theta}(s,a) = Q^{\pi_\theta}(s,a)-V^{\pi_\theta}(s) \\
\nabla_\theta J(\theta)=\color{red}{\mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\ A^{\pi_\theta}(s,a)]}
\]

估计优势函数（1）

优势函数可以显著地降低策略梯度的方差
因此critic应该能够较好地估计优势函数
例如说：采用两个近似函数和参数向量
去同时拟合\(V^{\pi_\theta}(s)\)以及\(Q^{\pi_\theta(s,a)}\)

\[\begin{align}
V_v(s) & \approx V^{\pi_\theta}(s) \\
Q_w(s,a) & \approx Q^{\pi_\theta}(s, a) \\
A(s,a) & \approx Q_w(s,a) - V_v(s)
\end{align}
\]
然后再通过例如时序差分的方式对两个价值函数进行更新。

估计优势函数（2）

对于真正的价值函数\(V^{\pi_\theta}(s)\)，其时序差分误差\(\delta^{\pi_\theta}\)如下：

\[\delta^{\pi_\theta}=r+\gamma V^{\pi_\theta}(s')-V^{\pi_\theta}(s)
\]
因此就是一个优势函数的无偏估计

\[\begin{align}
\mathbb{E_{\pi_\theta}}[\delta^{\pi_\theta}|s,a]& =\mathbb{E_{\pi_\theta}}[r+\gamma V^{\pi_\theta}(s')(s)|s,a]-V^{\pi_\theta}(s) \\
& = Q^{\pi_\theta}(s,a)-V^{\pi_\theta}(s) \\
& = A^{\pi_\theta}(s,a)
\end{align}
\]
为此我们可以通过时序差分误差去计算梯度策略

\[\nabla_\theta J(\theta) = \color{red}{}\mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\ \delta^{\pi_\theta}]
\]
在实践中我们一般采用一个近似的时序差分误差

\[\delta_V = r+\gamma V_V(s')-V_V(s)
\]
采取这种方法的话，就只需要一组critic的参数v了

有效性追踪（Eligibility Tracse）

不同时间尺度的Critics（Critics at Different Time-Scales）

Critic是可以通过多个时间尺度不同的目标中拟合目标函数\(V_\theta(s)\)
- 对于蒙特卡罗。那么目标则是返回回报\(v_t\)
  
  \[\Delta\theta= \alpha(\color{red}{v_t}-V_\theta(s))\phi(s)
  \]
- 对于\(TD(0)\)，目标则是TD目标\(r + \gamma V(s')\)
  
  \[\Delta\theta=\alpha(\color{red}{r+\gamma V(s')}-V_\theta(s))\phi(s)
  \]
- 对于前向\(TD(\lambda)\)，目标则为\(\lambda\)-返回回报\(v^\lambda_t\)
  
  \[\Delta\theta = \alpha(\color{red}{v_t^\lambda} - V_\theta(s))\phi(s)
  \]
- 对于后向\(TD(\lambda)\)，我们则采用有效性追踪（Eligibility Traces）
  
  \[\begin{align}
  \delta_t & = r_{t+1}+\gamma V(s_{t+1}) - V(s_t) \\
  e_t & = \gamma\lambda e_{t-1} + \phi(s_t) \\
  \Delta\theta & = \alpha\delta_t e_t
  \end{align}
  \]

不同时间尺度的Actors

对于策略梯度同样也可以通过多个不同时间尺度进行估计

\[\nabla_\theta J(\theta) = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log \pi_\theta(s,a)\ \color{red}{A^{\pi_\theta}(s,a)}]
\]
而蒙特卡罗策略梯度则是利用了整个完整返回回报的误差

\[\Delta\theta=\alpha(\color{red}{v_t}-V_t(s_t))\nabla_\theta\log\pi_\theta(s_t,a_t)
\]

Actor-Critic梯度策略则是采用一步时序差分误差
\[\Delta\theta = \alpha(\color{red}{r + \gamma V_V(s_{t+1})}-V_V(s_t))\nabla_\theta\log\pi_\theta(s_t,a_t)
\]

带有效性追踪的策略梯度

正如前向\(TD(\lambda)\)，我们可以对读个时间尺度进行混合

\[\Delta\theta = \alpha(\color{red}{v^\lambda_t} - V_V(s_t))\nabla_\theta\log\pi_\theta(s_t,a_t)
\]
其中\(v^\lambda_t - V_V(s_t)\)是优势函数的有偏估计
正如后向\(TD(\lambda)\)，我们同样可以采用有效性追踪
- 通过等价于\(TD(\lambda)\)，我们使得\(\phi(s) = \nabla_\theta\log\pi_\theta(s,a)\)
  
  \[\begin{align}
  \delta & = r_{t+1} + \gamma V-V(s_{t+1})-V_V(s_t) \\
  e_{t + 1} & = \lambda e_t + \nabla_\theta\log \pi_\theta(s,a) \\
  \Delta\theta & = \alpha\delta e_t
  \end{align}
  \]
- 这样的更新方法直接就能应用在基于策略的非完整序列中了

自然策略梯度（Natural Policy Gradient）

对于自然策略梯度是参数化独立的
当通过一个小而合适数量进行策略更新，它会找到一个比较接近于vanilla梯度的上升方向

\[\nabla_\theta^{nat}\pi_\theta(s,a) = G^{-1}_\theta\nabla_\theta\pi_\theta(s,a)
\]
其中\(G_\theta\)是一个费舍尔信息矩阵（Fisher information matrix）

\[G_\theta=\mathbb{E}_{\pi_\theta}[\log\pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)^T]
\]

自然Actor-Critic算法

基于兼容函数近似

\[\nabla_wA_w(s,a)=\nabla_\theta\log\pi_\theta(s,a)
\]
因此自然策略梯度简化为：

\[\begin{align}
\nabla_\theta J(\theta) & = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)A^{\pi_\theta}(s,a)] \\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)^Tw] \\
& = G_\theta w \\
\color{red}{\nabla_\theta^{nat}J(\theta)}& \ \color{red}{=w}

\end{align}
\]
即：通过直接的critic参数去更新actor参数

对于所有策略梯度算法的总结

\[\begin{align}
\nabla_\theta J(\theta) & = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\color{red}{v_t}]
& \text{REINFORCE}
\\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\color{red}{Q^w(s,a)}]
& \text{Q Actor-Critic}
\\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\color{red}{A^w(s,a)}]
& \text{Advantage Actor-Critic}
\\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\color{red}{\delta}]
& \text{TD Actor-Critic}
\\
& = \mathbb{E_{\pi_\theta}}[\nabla_\theta\log\pi_\theta(s,a)\color{red}{\delta e}]
& \text{TD(}\lambda)\text{ Actor-Critic}
\\
G_\theta^{-1}\nabla_\theta J(\theta) &= w
& \text{Natural Actor-Critic}
\end{align}
\]

所有算法都基于随机梯度下降

Critic则是采用典型的策略评估（例如蒙特卡罗或者时序差分）来估算\(Q^\pi(s,a)\)，\(A^\pi(s,a)\)或者\(V^\pi(s)\)

机器学习 | 强化学习（6） | 策略梯度方法（Policy Gradient Method）的更多相关文章

强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richa ...
强化学习(十三) 策略梯度(Policy Gradient)
在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习.这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很 ...
深度学习课程笔记（十三）深度强化学习 --- 策略梯度方法（Policy Gradient Methods）
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
DRL之：策略梯度方法　（Policy Gradient Methods）
DRL 教材 Chpater 11 --- 策略梯度方法(Policy Gradient Methods) 前面介绍了很多关于 state or state-action pairs 方面的知识,为了 ...
机器学习进阶-图像形态学操作-梯度运算 cv2.GRADIENT(梯度运算-膨胀图像-腐蚀后的图像)
1.op = cv2.GRADIENT 用于梯度运算-膨胀图像-腐蚀后的图像梯度运算:表示的是将膨胀以后的图像 - 腐蚀后的图像,获得了最终的边缘轮廓代码: 第一步:读取pie图片第二步:进行腐 ...
Ⅶ. Policy Gradient Methods
Dictum: Life is just a series of trying to make up your mind. -- T. Fuller 不同于近似价值函数并以此计算确定性的策略的基于价 ...
强化学习(十六) 深度确定性策略梯度(DDPG)
在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:即经验回放和双网络的方法来改进Actor-Cri ...
强化学习(十四) Actor-Critic
在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法.但是由于该算法 ...
【转载】 “强化学习之父”萨顿：预测学习马上要火，AI将帮我们理解人类意识
原文地址: https://yq.aliyun.com/articles/400366 本文来自AI新媒体量子位(QbitAI) ------------------------------- ...
强化学习之三：双臂赌博机（Two-armed Bandit）
本文是对Arthur Juliani在Medium平台发布的强化学习系列教程的个人中文翻译,该翻译是基于个人分享知识的目的进行的,欢迎交流!(This article is my personal t ...

随机推荐

Flutter (2.5) - A splash screen was provided to Flutter, but this is deprecated
Flutter (2.5) - A splash screen was provided to Flutter, but this is deprecated 升级到Flutter 2.5 版本后,启 ...
flutter问题汇总
Text文字居中 Text( 'You will need to post a photo before you can play!', textAlign: ...
PDF 图书
我找到的深入介绍 PDF 结构的图书主要有 2 本: PDF Explained,这本书比较早,首发于 2011 年11 月 30 日 Developing with PDF,首发于 2013年10月 ...
助推乡村振兴，四川农担X中电金信大数据智能风控平台彰显“榜样的力量”
在2024年3月召开的两会上,政府工作报告首次提到了要大力发展科技金融.绿色金融.普惠金融.养老金融.数字金融,为深入推进金融高质量发展,走中国特色金融发展之路指明了方向.其中,四川农担作为一家专注 ...
【软件】【逆向】StarUML regist
// 安装npm brew install node //安装打包工具 npm install asar -g C:\Program Files\StarUML\resources StarUML\r ...
arm mattermost
It's not so hard, here is my working steps for arm64 device. cd ~/build/mattermost wget https://raw. ...
Qt开源作品19-通用数据库翻页查询
一.前言在Qt与数据库结合编程的过程中,记录一多,基本上都需要用到翻页查看记录,翻页有个好处就是可以减轻显示数据的表格的压力,不需要一次性将数据库表的记录全部显示,也基本上没有谁在一页上需要一次性显 ...
Qt开源作品36-程序守护进程
一.前言没有任何人敢保证自己写的程序没有任何BUG,尤其是在商业项目中,程序量越大,复杂度越高,出错的概率越大,尤其是现场环境千差万别,和当初本地电脑测试环境很可能不一样,有很多特殊情况没有考虑到, ...
模拟数据生成器mock.js入门
1.在某一指定目录下,按下shift+鼠标右键,,点击"在此处打开Powershell窗口(S)",启动命令行窗口.如下图: 2.在窗口中输入以下命令以便创建项目:vue crea ...
搭建gitlab私有仓库
1.下载gitlab 首先在 /etc/yum.repos.d/目录下配置gitlab下载镜像源. # 进入目录 /etc/yum.repos.d/ cd /etc/yum.repos.d/ # 创建 ...

机器学习 | 强化学习（6） | 策略梯度方法（Policy Gradient Method）

6-策略梯度方法（Policy Gradient Method）

策略梯度概论（Introduction）

基于策略（Policy-Based） 的强化学习

基于价值（Value-Based）和基于策略的强化学习

基于策略强化学习的优点

策略随机性的思考

策略目标函数（Policy Objective Functions）

策略最优化

有限微分梯度策略（Finite Difference Policy Gradient）

梯度策略（Policy Gradient）

通过有限微分去计算梯度

蒙特卡罗策略梯度（Monte-Carlo Policy Gradient）

似然率（Likelihood Ratios）

分数函数(Score Function)

Softmax策略（Softmax Policy）

高斯策略（Gaussian Policy）

一步马尔科夫决策过程（One-Step MDPs）

策略梯度理论（Policy Gradient Theorem）

蒙特卡罗策略梯度（REINFORCE算法）

Actor-Critic策略梯度

基于Critic算法以减少方差

估计动作-价值函数

动作-价值 Actor-Critic

兼容函数拟合（Compatible Function Approximation）

兼容函数拟合定义：

兼容函数定理的证明

改进Critic函数

通过Baseline去降低方差

估计优势函数（1）

估计优势函数（2）

有效性追踪（Eligibility Tracse）

不同时间尺度的Critics（Critics at Different Time-Scales）

不同时间尺度的Actors

带有效性追踪的策略梯度

自然策略梯度（Natural Policy Gradient）

更多选择的策略梯度方向

自然策略梯度（Natural Policy Gradient）

自然Actor-Critic算法

对于所有策略梯度算法的总结

机器学习 | 强化学习（6） | 策略梯度方法（Policy Gradient Method）的更多相关文章

随机推荐

热门专题

基于策略（Policy-Based）的强化学习