从baselines库的common/vec_env/vec_normalize.py看reinforcement learning算法中的reward shape方法

参考前文：https://www.cnblogs.com/devilmaycry812839668/p/15889282.html

2. REINFORCE算法实际代码中为什么会对一个episode内的所有状态动作对的折扣奖励和进行规则化（Regularize）

总所周知在REINFORCE算法的论文和实际理论中并没有对一个episode内的所有状态动作对的折扣奖励sum做Regularize，但是在实际代码中却进行了Regularize。在REINFORCE的实际代码编写中一个episode内的每个状态动作对的折扣奖励sum都是相当于通过蒙特卡洛方式得到的，然后再对一个episode内的所有状态动作的折扣奖励和做规则化（减去均值除去方差），最后获得一个episode内每个状态动作对的规则化后的折扣奖励和。

可以知道对episode内的每个状态动作对的折扣奖励sum进行规则化是代码编写中的trick，这个trick并不是论文中给出的而是实际代码编写和运行中得到的trick，经过大量实验后发现该trick确实好用。为什么这个trick好用呢，分析一下可以知道REINFORCE属于蒙特卡洛方式的采样估计，该种方式虽然无偏但却高方差不利于收敛，所以要是严格按照论文不采用这个trick会不利于收敛。同时可以参考安德鲁.NG.吴恩达的博士论文“reinforcement learning reward shape”可以知道通过对reward的shape可以提高算法的训练性能。REINFORCE算法采用这个trick后可以很好的减少训练时候的方差，有利于收敛。

=============================================

在reinforce算法中对reward一般是进行regularize操作的，也就是对每个step的折扣奖励和进行正则化，而在baselines库的common/vec_env/vec_normalize.py模块中对reward的正则化又有了不同。

    def step_wait(self):

        obs, rews, news, infos = self.venv.step_wait()

        self.ret = self.ret * self.gamma + rews

        obs = self._obfilt(obs)

        if self.ret_rms:

            self.ret_rms.update(self.ret)

            rews = np.clip(rews / np.sqrt(self.ret_rms.var + self.epsilon), -self.cliprew, self.cliprew)

        self.ret[news] = 0.

        return obs, rews, news, infos

可以知道，self.ret为一个episode内的每个step的折扣奖励和，self.ret_rms.update(self.ret)可以根据每步的折扣奖励和来进行求方差，

最后根据每步step的折扣奖励和的方差来对每步的step进行正则化：

rews = np.clip(rews / np.sqrt(self.ret_rms.var + self.epsilon), -self.cliprew, self.cliprew)

个人理解是每个step的折扣奖励和的方差会小于每个step所获奖励的方差，使用折扣奖励和的方差来正则化reward可以使后续的reinforcement learning算法在计算过程中更加的平稳和低方差。

不过不是很理解的是为什么要用折扣奖励和来求解方差而不是直接使用每步的step的reward来计算方差。

总的来说就是这里的reward正则化十分的难以理解为什么要选每步的折扣奖励和来进行正则化操作的方差求解。

不得不说baselines库中的很多操作都难以有很好的解释。

==========================================

从baselines库的common/vec_env/vec_normalize.py看reinforcement learning算法中的reward shape方法的更多相关文章

VS编译linux项目生成静态库并在另一个项目中静态链接的方法
VS2017也推出很久了,在单位的时候写linux的服务端程序只能用vim,这让用惯了IDE的我很难受. 加上想自己撸一套linux上的轮子,决定用VS开工远程编写调试linux程序. 在window ...
python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'的解决方法：
全文转载至:http://www.cnblogs.com/testyao/p/5658200.html python3中用HTMLTestRunner.py报ImportError: No modul ...
使用setup.py安装python包和卸载python包的方法
使用setup.py安装python包和卸载python包的方法记录安装后文件的路径 python setup.py install --record files.txt删除这些文件 cat fil ...
(E2E_L2)包含目录、库目录、附加包含目录、附加库目录、附加依赖项之详解【正确的目录添加方法】
VS项目中的包含目录.库目录.附加包含目录.附加库目录.附加依赖项均在"项目->属性->配置属性"下进行配置一.具体说明如下: 1.VC++目录: 包含目录: ...
运用NodeJs环境并依赖第三方库，框架等实现网站前后端分离报错问题及处理方法
运用NodeJs环境并依赖第三方库,框架等实现网站前后端分离报错问题及处理方法问题一: SyntaxError: missing ) after argument list in .....\vie ...
如何安装/导入Arduino库文件及库文件的不同位置与区别（以eFLL中嵌入式模糊逻辑库为例）
网上有数百个可在Aruduino中使用的库,这些代码集使得我们无需从0-1地搭建我们所需功能,这使得学习和使用Arduino变得更加方便简单.除此之外,平时直接从网上download下的代码也很有可能 ...
Python 库打包分发、setup.py 编写、混合 C 扩展打包的简易指南（转载）
转载自:http://blog.konghy.cn/2018/04/29/setup-dot-py/ Python 有非常丰富的第三方库可以使用,很多开发者会向 pypi 上提交自己的 Python ...
结合manage.py，在flask项目中使用websocket模块--- flask-socketio
前言: - 为什么我要使用 flask-socketio模块,而不是flask-sockets? - 因为flask-socketio与前端流行的websocket库socke ...
Arduino下LCD1602综合探究（下）——如何减少1602的连线，LiquidCrystal库，LiquidCrystal库中bug的解决方法
一.前言: 上文中,笔者系统的阐述了1602的两种驱动方式,并简单的提到了Arduino的LiquidCrystal库.本文紧接上文,对以下两个问题进行更加深入的探讨:如何能够使1602对Arduin ...
把 MWeb Lite 的文档库文档和数据搬到 MWeb 正式版中
MWeb Lite 版的文档库中的文档要搬到 MWeb 正式版中,如果 Lite 版的文档中没有图片或者只有少量图片,可以用导入导出为 Markdown 的方法. 否则的话请用以下方式(注意下面这个方 ...

随机推荐

PI规划会，研发团队价值聚焦的一剂良方
随着数字化建设如火如荼地推进,中大型企业的数字化建设团队规模也越来越大,团队规模的扩大一方面带来了更多产能与可能性,另一方面,不同的角色在不同的业务场景也带来了一些现实问题,例如: 作为CIO 或产品 ...
MySQL GROUP BY 用法介绍
MySQL 中 GROUP BY 用法简介 GROUP BY 语句用于结合合计函数,根据一个或多个列对结果集进行分组. 可以把分组理解成 Excel 中的分组. 把合计函数理解成 Excel 中 ...
HttpServletRequest获取header参数 sign
HttpServletRequest获取header参数 sign //从请求头中获取参数 private static Map<String, String> getHeaders(Ht ...
MinIO 图片转文件的分界线RELEASE.2022-05-26T05-48-41Z
前言:本人想用MinIO存储文件,但是不想最新版本Mete文件,于是各种寻找于是终于找到办法了,原来是官方版本更新导致的.需要我们去寻找相应的版本. 1.官网下载网站 https://dl.min.i ...
硬件开发笔记（十九）：Altium Designer 21软件介绍和安装过程
前言 AD硬件设计软件之一,前面说了allego,但是allego对项目的管理.原理图生成PCB,PCB反向原理图等方面比较复杂,对于一般的硬件(非多个高速电路),选择AD能够加大的节省开发工作量 ...
Web之http学习笔记
目录 HTTP url http请求请求行请求方法请求头请求正文 http响应响应行状态码响应头响应正文 Cookie 定义: 内容: 用途: 生命周期: 隐私和安全性: Sessio ...
在AS中logcat的设置过滤信息图文教程
[当前使用版本 1.4] logcat是调试代码的很好工具,但是因为跳出的信息过多让人目不暇接,未必能让人找到想要的信息,所以我们必须从中过滤出想要的信息 [样例]这里我们要搜索 System.out ...
yolov1-yolov5 网络结构&正负样本筛选&损失计算
学习yolo系列,最重要的,最核心的就是网络模型.正负样本匹配.损失函数等三个方面.本篇汇总了yolov1-yolov5等5个版本的相关知识点,主要看点是在yolo框架搭建.初学者可以通过相关篇章搭建 ...
Xilinux PS与PL交互：：Linux-App读写REG
Xilinux PS与PL交互::Linux-App读写REG 背景 PL配置好有关的硬件,PS端做验证. 设计方案:针对REG地址,不使用设备树配置. 遇到的问题:暂无. 验证目的验证PL-PS的 ...
是什么导致了客户端TCP连不上服务器？
这几年做了很多基于 GGTalk开源即时通讯系统的定制开发项目,经常会碰到如下两个问题,分享出来,应该对大家会有所帮助: (1)定制开发完成后,在给客户部署GGTalk即时通讯服务端到正式的服务 ...

从baselines库的common/vec_env/vec_normalize.py看reinforcement learning算法中的reward shape方法

从baselines库的common/vec_env/vec_normalize.py看reinforcement learning算法中的reward shape方法的更多相关文章

随机推荐

热门专题