论文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的阅读—

最近组会汇报，由于前一阵听了中科院的教授讲解过这篇论文，于是想到以这篇论文为题做了学习汇报。论文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》虽然发表的时间很早，但是确实很有影响性，属于这个领域很有里程牌的一篇论文，也是属于这个领域的研究者多少应该了解些的文章。以下给出根据自己理解做成的PPT。

---------------------------------------------------------------------------------

后注：

其实，很多人觉得这个推导就是多此一举，这个公式和证明根本没有必要，因为这个公式本身就是显而易见的，原因如下：

已知（根据MDP及强化学习的定义有）：

公式（1）：

公式（2）：

而上面的这篇论文通篇要做的就是下面的公式成立，并且满足逼近函数f为向量且上面的公式（4）及step_size的要求可以收敛到局部最优：

根据后注中的公式（1）和（2），不是直接就可以得到论文中的这个公式嘛，而且而这个公式必然在理想条件下收敛（对整体环境有很好的抽样的情况下），那么把Q换成逼近函数f ，不是也会收敛的嘛，又何必费力去推导最后还得到一个在多个条件下收敛到局部解的结论，这不是显而易见的事情还非得花无用功去为了推导公式而去推导公式和证明收敛的吗？

在此，回答一下这方面的提问：

首先，要说的就是提出这个问题的人本身就忽略了下面的事情：

与本身都是对策略依赖的，或者说这两个item本身就含有策略参数θ ， 所以根本就不存在由后注中的（1），（2）公式可以推导出论文的最终公式的形式。

换句话说就是策略pi和Q 对策略参数θ来说都不是常数的，由此才有上面论文中的各种情况下的推导。

对于收敛的问题：

虽然我们可以知道在完全抽样的情况下策略梯度用策略和Q来表示是收敛的，都是实际Q并不知道，我们需要用函数近似和采样的方法来获得，而在这样的整个动态的学习过程中即要优化策略梯度的参数，又要优化近似函数f的参数，而这样的情况下是否收敛却并不知道的。

如果在某个学习过程中近似函数f 对 Q值的估计过程收敛到局部最优，则有论文中的公式（3），而在近似值函数f 和策略函数pi 满足论文中的公式（4），则有论文中的公式（5），（6），在有对step_size的限制下才有满足以上条件的值函数近似策略梯度算法收敛都局部最优的结论。

---------------------------------------

论文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的阅读——强化学习中的策略梯度算法基本形式与部分证明的更多相关文章

《DRN: A Deep Reinforcement Learning Framework for News Recommendation》强化学习推荐系统
摘要新闻推荐系统中,新闻具有很强的动态特征(dynamic nature of news features),目前一些模型已经考虑到了动态特征. 一:他们只处理了当前的奖励(ctr);. 二:有一些 ...
[Reinforcement Learning] Value Function Approximation
为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数:对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值 ...
Ⅶ. Policy Gradient Methods
Dictum: Life is just a series of trying to make up your mind. -- T. Fuller 不同于近似价值函数并以此计算确定性的策略的基于价 ...
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods)
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richa ...
论文翻译--StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning
(缺少一些公式的图或者效果图,评论区有惊喜) (个人学习这篇论文时进行的翻译[谷歌翻译,你懂的],如有侵权等,请告知) StarCraft Micromanagement with Reinforce ...
[Reinforcement Learning] Policy Gradient Methods
上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\p ...
强化学习七 - Policy Gradient Methods
一.前言之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的ac ...
DRL之：策略梯度方法　（Policy Gradient Methods）
DRL 教材 Chpater 11 --- 策略梯度方法(Policy Gradient Methods) 前面介绍了很多关于 state or state-action pairs 方面的知识,为了 ...
深度学习课程笔记（十三）深度强化学习 --- 策略梯度方法（Policy Gradient Methods）
深度学习课程笔记(十三)深度强化学习 --- 策略梯度方法(Policy Gradient Methods) 2018-07-17 16:50:12 Reference:https://www.you ...
论文选读一: Towards end-to-end reinforcement learning of dialogue agents for information access
Towards end-to-end reinforcement learning of dialogue agents for information access KB-InfoBot 与知识库交 ...

随机推荐

SQL SERVER 2012的安装
1.将光盘镜像用虚拟光驱加载(WIN10自带虚拟光驱) 2.双击setup.exe 3.选择"安装"-"全新 SQL Server 独立安装或向现有安装添加功能" ...
手机上玩 PC 游戏的开源项目「GitHub 热点速览」
上周国产 3A 大作<黑神话:悟空>开启预售,同时公布游戏将于北京时间 2024.8.20 正式上线.这是一款由「游戏科学」开发的西游题材单机·动作·角色扮演游戏,它采用「虚幻引擎5」制作 ...
ColorEasyDuino上手指南
介绍 ColorEasyDuino是嘉立创推出的一块Aduino开发板(类似物),具有丰富的外设接口:uart.i2c.spi.adc.pwm等:开发板设计参考原型是Arduino Uno,采用的芯片 ...
三月二十四日安卓app打卡开发日志
目前打卡系统基本完成没有实现的功能有无法统计次数和连接本地数据库我全程连接的远程数据库 package com.example.test_four.utils; import java.sql ...
Python做点击率数据预测
点击率(Click-Through Rate, CTR)预测是推荐系统.广告系统和搜索引擎中非常重要的一个环节.在这个场景中,我们通常需要根据用户的历史行为.物品的特征.上下文信息等因素来预测用户点击 ...
关于tomcat中servlet的url-pattern匹配规则
首先需要明确几点容易混淆的规则: servlet容器中的匹配规则既不是简单的通配,也不是正则表达式,而是特定的规则.所以不要用通配符或者正则表达式的匹配规则来看待servlet的url-pattern ...
基于 UDP 的组播、广播详解
背景有些时候我们在网络通信中也需要用到组播(多播).广播.现在我们来介绍如何实现. 建议:在此之前,关闭防火墙. ubuntu: service ufw stop windows: 控制面板关闭 ...
P2045 方格取数加强版题解
题目链接:P2045 方格取数加强版 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题目: 出一个 n*n 的矩阵,每一格有一个非负整数 A{i,j}且A{i,j} <=10 ...
Linux系统的硬件信息
查看Linux系统的硬件信息 [1]查看内核信息 uname 用于显示系统的内核信息 option -s:显示内核名称 -r:显示内核版本 [root@bogon /]# uname -a Linux ...
有手就会的 Java 处理压缩文件
@ 目录前言背景第一步:编写代码 1.1 请求层 1.2 业务处理层 1.3 新增配置第二步:解压缩处理 2.1 引入依赖 2.2 解压缩工具类总结前言请各大网友尊重本人原创知识分享,谨 ...

论文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的阅读——强化学习中的策略梯度算法基本形式与部分证明

论文《policy-gradient-methods-for-reinforcement-learning-with-function-approximation 》的阅读——强化学习中的策略梯度算法基本形式与部分证明的更多相关文章

随机推荐

热门专题