基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象

首先给出一个代码地址：

https://gitee.com/devilmaycry812839668/CartPole-PolicyNetwork

强化学习中的策略网络算法。《TensorFlow实战》一书中强化学习部分的策略网络算法，仿真环境为gym的CartPole，本项目是对原书代码进行了部分重构，并加入了些中文注释，同时给出了30次试验的运行结果。

=======================================

可以看到，上面的代码是比较简单的Reinforce算法，其中策略函数使用浅层的三层神经网络（全连接），激活函数使用Relu，进行了30次试验，每次试验进行了10000 个episodes的训练，但是神奇的发现这30次试验中居然第5次试验，第21次试验出现了严重的梯度衰退的想象。

给出梯度衰退时部分训练结果：

Average reward for episode 1375 : 200.000000.

Average reward for episode 1400 : 200.000000.

Average reward for episode 1425 : 200.000000.

Average reward for episode 1450 : 200.000000.

Average reward for episode 1475 : 200.000000.

Average reward for episode 1500 : 200.000000.

Average reward for episode 1525 : 200.000000.

Average reward for episode 1550 : 192.480000.

Average reward for episode 1575 : 140.440000.

Average reward for episode 1600 : 104.240000.

Average reward for episode 1625 : 20.080000.

Average reward for episode 1650 : 12.560000.

Average reward for episode 1675 : 10.720000.

Average reward for episode 1700 : 11.080000.

Average reward for episode 1725 : 12.000000.

Average reward for episode 1750 : 10.560000.

Average reward for episode 1775 : 11.040000.

Average reward for episode 1800 : 10.360000.

Average reward for episode 1825 : 10.080000.

Average reward for episode 1850 : 10.640000.

Average reward for episode 1875 : 10.360000.

Average reward for episode 1900 : 10.360000.

Average reward for episode 1925 : 10.480000.

Average reward for episode 1950 : 10.360000.

Average reward for episode 1975 : 9.680000.

Average reward for episode 2000 : 10.000000.

Average reward for episode 2025 : 10.720000.

Average reward for episode 2050 : 10.000000.

Average reward for episode 2075 : 10.000000.

Average reward for episode 2100 : 10.520000.

Average reward for episode 2125 : 10.640000.

Average reward for episode 2150 : 9.760000.

Average reward for episode 2175 : 11.040000.

可以看到在第5次和第21次试验中当训练到一定episodes后训练结果下降到极坏的水平（远低于随机策略的结果，随机策略结果应该在26左右），因此我们可以发现这时的训练已经发生了梯度衰退问题，degenerate问题。以前一直以为衰退问题只会出现在深层网络中，没有想到在浅层网络中也发现了衰退现象。

查阅相关论文《Skip connections eliminate signulairites》发现浅层网络也是会出现衰退现象的，解答了自己的疑问，原来浅层神经网络也是可能会出现衰退问题的。

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章

Andrew Ng - 深度学习工程师 - Part 1. 神经网络和深度学习（Week 3. 浅层神经网络）
=================第3周浅层神经网络=============== ===3..1 神经网络概览=== ===3.2 神经网络表示=== ===3.3 计算神经网络的输出== ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第三周：浅层神经网络(Shallow neural networks) -课程笔记
第三周:浅层神经网络(Shallow neural networks) 3.1 神经网络概述(Neural Network Overview) 使用符号$ ^{[
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络听课笔记
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
基于MNIST数据集使用TensorFlow训练一个没有隐含层的浅层神经网络
基础在参考①中我们详细介绍了没有隐含层的神经网络结构,该神经网络只有输入层和输出层,并且输入层和输出层是通过全连接方式进行连接的.具体结构如下: 我们用此网络结构基于MNIST数据集(参考②)进行训 ...
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...
tensorFlow（四）浅层神经网络
tensorFlow见基础实验 MNIST数据集介绍 MNIST是一个手写阿拉伯数字的数据集. 其中包含有60000个已经标注了的训练集,还有10000个用于测试的测试集. 本次实验的任务就是通过手 ...
Tensorflow MNIST浅层神经网络的解释和答复
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51416540 看到之前的一篇博文:深入 ...
一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化神经网络在训练过程中,为应对过拟合问题,可以采用正则化方法(regularization),一种常用的正则化方法是L2正则化. 神经网络中 ...

随机推荐

ES 数据太敏感不让看，怎么办？
在使用 ES 的过程中,如果 ES 集群中存放的是敏感数据,是不能够随便供人查看的.什么?在排查故障?那也不行,合规高于一切. 不知道大家有没有遇到过上面描述的情景,或者如果是你遇到了,你会怎么办呢? ...
小米红米 Redmi MIUI14 ANDROID 系统耗电
小米红米 Redmi MIUI14 ANDROID 系统耗电在系统更新里,点右上角三点,下载完整更新包,安装好.再把电量用到关机,充电,充满开机,别拔线,继续充10分钟.我就是这么解决的,今天用 ...
透过 node-exporter 彻底弄懂机器监控：01. node-exporter 框架讲解
前言 Prometheus 生态里有很多采集器负责各类监控数据的采集,其中使用最广泛的,显然是 node-exporter,负责 Linux.BSD 等系统的常规监控指标的采集,比如 CPU.内存.硬 ...
xshell和xftp下载免费版本方法
下载地址 https://www.xshell.com/zh/free-for-home-school/ 填写邮箱和用户名,会发送下载邮件到邮箱,然后根据邮箱中的下载地址来下载安装.
搭建第一个web项目
实现使用: 1.创建一个普通java文件 2.Java文件的类名实现HttpServlet 3.重写service方法 4.在WEB-INF下的web.xml中添加请求与servlet类的映射关系定 ...
k8s livenessprobe和readinessprobe详解
一.为什么需要容器探针如何保持Pod健康只要将pod调度到某个节点,Kubelet就会运行pod的容器,如果该pod的容器有一个或者所有的都终止运行(容器的主进程崩溃),Kubelet将重启容器, ...
洛谷·P1130
#include<iostream> #include<utility> using namespace std; typedef long long ll; #define ...
uBrand | 更适合个人创业者，小公司的AI品牌创建平台
在跟一些辞职创业的朋友聊品牌,这个问题大家不约而同地都会提到:"我不会设计也没有资金请专业的设计师,有没有低成本打造品牌的方法呢?" 正好这段时间赶上AI的风潮,从众多AI工具中刚 ...
解决方案 | xpdf4.04支持中文pdf识别与转换（pdf提取txt）
一.下载地址按照参考链接将xpdf4.04(含有xpdf-chinese-simplified包)已经打包好,下载链接如下: https://www.123pan.com/s/9Rn9-eEQpH. ...
Curve 替换 Ceph 在网易云音乐的实践
Curve 块存储已在生产环境上线使用近三年,经受住了各种异常和极端场景的考验,性能和稳定性均超出核心业务需求预期网易云音乐背景网易云音乐是中国领先的在线音乐平台之一,为音乐爱好者提供互动的内容社 ...

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce） 在训练过程中出现梯度衰退（degenerate）的现象

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce） 在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章

随机推荐

热门专题

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章