A3C与GA3C的收敛性分析

G-A3C的代码：

https://gitee.com/devilmaycry812839668/gpu_a3c

论文：

《Reinforcement Learning thorugh Asynchronous Advantage Actor-Critic on a GPU》

论文地址：

https://openreview.net/forum?id=r1VGvBcxl

=====================================================

G-A3C，原意是GPU版本的A3C，但是仔细读过后发现这个GPU版本的算法好像和CPU版本的并不相同。

其中最大的区别就是网络反传时副本是不是由多个进程持有；在A3C中，多个进程中均持有一份可以前后向传播的神经网络，也就是说在多个进程中都可以使用自有的神经网络进行前向推理来进行数据采样，同时也能使用后向计算来进行神经网络的训练；也就是说，在A3C中数据采样和训练用的是同一套神经网络的参数，因此在A3C中的并行算法的异步参数更新和监督学习的并行化异步更新更相似，因此在A3C中虽然使用异步更新的方式，虽然对收敛性造成影响但是也不至于完全发散。

G-A3C中，所有的采样进程并不持有神经网络，全局只有一个神经网络在GPU中，所以不论是神经网络的前向推理还是后向训练都是使用这个神经网络，但是由于异步更新的特点，所以各进程采样的数据时所用的神经网络参数和训练时的神经网络参数时存在一定滞后性的，因此就导致G-A3C中训练神经网络时使用的数据往往对收敛性造成更大的影响，这也implicit的将同策略强化学习算法变成了异策略的强化学习算法；在之前的blog中也讨论过类似的问题，那就是同策略的强化学习算法如果按照异策略强化学习算法那样使用的数据和训练时神经网络有一定滞后性，这样虽然会极大的影响收敛，并且严重时导致不收敛，但是在很多情况下（很多的game环境下）也是可以保证收敛的。

总的来说，A3C算法采集数据和训练数据使用的是同一套神经网络参数，虽然在参数更新时使用异步方式，但是该方式更类似于监督学习中的异步更新方式，虽然也会对算法收敛性造成影响但是要远远低于G-A3C；在G-A3C中，由于数据采样时的神经网络参数与训练时的神经网络参数存在一定的滞后性，而这种滞后性是一种概率分布上的不同，因此这种对收敛性的影响往往要高于A3C算法。

在G-A3C中，为了抑制滞后性造成的对收敛性的影响，使用了一种概率下限的方式，也就是说对于采样后的数据在训练时其概率值是设置了一个下限值的，如果某个采样数据的动作在训练时低于该值那么就应该使其至少不低于该值；在具体实现时，则是在运行时对采样动作的log概率加入一个极小项，也就是log(p+epsilon)，即：

---------------------------------------------------

--------------------------------------------------------------

代码上的实现：

PS:

可以说在AC类算法中都是可以使用这个概率下限的操作的，这个可以作为一个trick来使用，这样可以抑制发散，对收敛性起到好的作用。

=====================================================

A3C与GA3C的收敛性分析的更多相关文章

再论EM算法的收敛性和K-Means的收敛性
标签(空格分隔): 机器学习 (最近被一波波的笔试+面试淹没了,但是在有两次面试时被问到了同一个问题:K-Means算法的收敛性.在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Mea ...
K-Means算法的收敛性和如何快速收敛超大的KMeans？
不多说,直接上干货! 面试很容易被问的:K-Means算法的收敛性. 在网上查阅了很多资料,并没有看到很清晰的解释,所以希望可以从K-Means与EM算法的关系,以及EM算法本身的收敛性证明中找到蛛丝 ...
【题解】CF24D Broken Robots(收敛性)
[题解]CF24D Broken Robots http://codeforces.com/problemset/problem/24/D 解1(不会写,口胡的) 获得一个比较显然的转移式子 \(dp ...
[ML从入门到入门] 支持向量机：从SVM的推导过程到SMO的收敛性讨论
前言支持向量机(Support Vector Machine,SVM)在70年代由苏联人 Vladimir Vapnik 提出,主要用于处理二分类问题,也就是研究如何区分两类事物. 本文主要介绍支持 ...
MINIX3 内核整体架构回顾及内核定性分析
MINIX3 内核整体架构回顾及内核定性分析 12.1 注意事项由于本文档不对 I/O 文件系统做出分析,所以在此不对 MINIX3 整体做出一个分析,本章主要是针对内核进程分析.并且这里的模 ...
连续型变量的推断性分析——t检验
连续型变量的推断性分析方法主要有t检验和方差分析两种,这两种方法可以解决一些实际的分析问题,下面我们分别来介绍一下这两种方法一.t检验(Student's t test) t检验也称student ...
51nod1674：区间的价值2（分治，利用&和|的收敛性）
lyk拥有一个区间. 它规定一个区间的价值为这个区间中所有数and起来的值与这个区间所有数or起来的值的乘积. 例如3个数2,3,6.它们and起来的值为2,or起来的值为7,这个区间对答案的贡献为2 ...
从软件project的角度写机器学习3——主要监督学习算法的project性分析
主要机器学习算法的project适用性分析前段时间AlphaGo跟李世石的大战及相关的深度学习的新闻刷了一遍又一遍的朋友圈.只是这件事情,也仅仅是在机器学习的深度上进一步拓展,而机器学习的广度(也即 ...
[Anti-AV] 从攻防对抗辩证性分析jsp免杀(一)
从攻防对抗辩证性分析jsp免杀从最早的最朴素木马 <%@ page import="java.io.InputStream" %> <%@ page impor ...
Mirantis OpenStack 8.0 版本大概性分析
作为 OpenStack 领域标杆性企业之一的 Mirantis 在2016年3月初发布了最新的 MOS 8.0 版本.本文试着基于公开资料进行一些归纳分析. 1. 版本概况 1.1 概况社区版本: ...

随机推荐

Vue学习：6.认识计算属性
计算属性是 Vue.js 提供的一种特殊属性,用于在模板中动态计算和返回数据.计算属性使得在模板中使用动态计算的数据变得非常简洁和方便,同时又能保持响应式更新的特性,提高了代码的可读性和可维护性. 与 ...
react 使用 error 报错
在使用react 中报错原因总结 01 // Warning: Can't call setState on a component that is not yet mounted. This is ...
kettle从入门到精通第七十课 ETL之kettle kettle数据校验，脏数据清洗轻松拿捏
场景:输入在指定的错误(错误应涵盖数据类型不匹配的情况)行数内,trans不报错,但通过错误处理步骤捕捉,并记入文件,整个数据管线正常完成直至处理完最后一个输入行. 解决方案:使用步骤[数据检验]进行 ...
关于编译告警 C4819 的完整解决方案 - The file contains a character that cannot be represented in the current code page (number). Save the file in Unicode format to prevent data loss.
引言今天迁移开发环境的时候遇到一个问题,同样的操作系统和 Visual Studio 版本,原始开发环境一切正常,但是迁移后 VS 出现了 C4819 告警,上网查了中文的一些博客,大部分涵盖几种解 ...
InvalidOperationException Cannot modify ServiceCollection after application is built .Net6 异常
背景我用了一个叫Unchase.Swashbuckle.AspNetCore.Extensions的库来加强Swagger的文档,我一般写法是这样的: builder.Services.AddSwa ...
动手学Avalonia：基于SemanticKernel与硅基流动构建AI聊天与翻译工具
Avalonia是什么? Avalonia是一个跨平台的UI框架,专为.NET开发打造,提供灵活的样式系统,支持Windows.macOS.Linux.iOS.Android及WebAssembly等 ...
xlookup与vlookup的区别
区别还是很大的,vlookup暂时扔不了.
解决BitBucket仓库较大拉取失败,使用SSH拉取
HTTPS 拉取如果使用的是https拉取,可使用以下命令尝试,如果还是失败,可使用 ssh 拉取 git clone --depth=1 xxxx.git --depth=1:拉取最近1次提交记录 ...
【workerman】uniapp+thinkPHP5使用GatewayWorker实现实时通讯
前言之前公司需要一个内部的通讯软件,就叫我做一个.通讯软件嘛,就离不开通讯了,然后我就想到了长连接.这里本人用的是GatewayWorker框架. 什么是GatewayWorker框架? Gatew ...
使用Nginx在80端口上代理多个.NET CORE网站
有两个.NET CORE3.1网站部署在CentOS7上(内网IP是192.168.2.32),现在想实现访问http://192.168.2.32时访问A网站,访问http://192.168.2. ...

A3C与GA3C的收敛性分析

A3C与GA3C的收敛性分析的更多相关文章

随机推荐

热门专题