基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象

首先给出一个代码地址：

https://gitee.com/devilmaycry812839668/CartPole-PolicyNetwork

强化学习中的策略网络算法。《TensorFlow实战》一书中强化学习部分的策略网络算法，仿真环境为gym的CartPole，本项目是对原书代码进行了部分重构，并加入了些中文注释，同时给出了30次试验的运行结果。

=======================================

可以看到，上面的代码是比较简单的Reinforce算法，其中策略函数使用浅层的三层神经网络（全连接），激活函数使用Relu，进行了30次试验，每次试验进行了10000 个episodes的训练，但是神奇的发现这30次试验中居然第5次试验，第21次试验出现了严重的梯度衰退的想象。

给出梯度衰退时部分训练结果：

Average reward for episode 1375 : 200.000000.

Average reward for episode 1400 : 200.000000.

Average reward for episode 1425 : 200.000000.

Average reward for episode 1450 : 200.000000.

Average reward for episode 1475 : 200.000000.

Average reward for episode 1500 : 200.000000.

Average reward for episode 1525 : 200.000000.

Average reward for episode 1550 : 192.480000.

Average reward for episode 1575 : 140.440000.

Average reward for episode 1600 : 104.240000.

Average reward for episode 1625 : 20.080000.

Average reward for episode 1650 : 12.560000.

Average reward for episode 1675 : 10.720000.

Average reward for episode 1700 : 11.080000.

Average reward for episode 1725 : 12.000000.

Average reward for episode 1750 : 10.560000.

Average reward for episode 1775 : 11.040000.

Average reward for episode 1800 : 10.360000.

Average reward for episode 1825 : 10.080000.

Average reward for episode 1850 : 10.640000.

Average reward for episode 1875 : 10.360000.

Average reward for episode 1900 : 10.360000.

Average reward for episode 1925 : 10.480000.

Average reward for episode 1950 : 10.360000.

Average reward for episode 1975 : 9.680000.

Average reward for episode 2000 : 10.000000.

Average reward for episode 2025 : 10.720000.

Average reward for episode 2050 : 10.000000.

Average reward for episode 2075 : 10.000000.

Average reward for episode 2100 : 10.520000.

Average reward for episode 2125 : 10.640000.

Average reward for episode 2150 : 9.760000.

Average reward for episode 2175 : 11.040000.

可以看到在第5次和第21次试验中当训练到一定episodes后训练结果下降到极坏的水平（远低于随机策略的结果，随机策略结果应该在26左右），因此我们可以发现这时的训练已经发生了梯度衰退问题，degenerate问题。以前一直以为衰退问题只会出现在深层网络中，没有想到在浅层网络中也发现了衰退现象。

查阅相关论文《Skip connections eliminate signulairites》发现浅层网络也是会出现衰退现象的，解答了自己的疑问，原来浅层神经网络也是可能会出现衰退问题的。

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章

Andrew Ng - 深度学习工程师 - Part 1. 神经网络和深度学习（Week 3. 浅层神经网络）
=================第3周浅层神经网络=============== ===3..1 神经网络概览=== ===3.2 神经网络表示=== ===3.3 计算神经网络的输出== ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第三周：浅层神经网络(Shallow neural networks) -课程笔记
第三周:浅层神经网络(Shallow neural networks) 3.1 神经网络概述(Neural Network Overview) 使用符号$ ^{[
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络听课笔记
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
基于MNIST数据集使用TensorFlow训练一个没有隐含层的浅层神经网络
基础在参考①中我们详细介绍了没有隐含层的神经网络结构,该神经网络只有输入层和输出层,并且输入层和输出层是通过全连接方式进行连接的.具体结构如下: 我们用此网络结构基于MNIST数据集(参考②)进行训 ...
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
伯克利、OpenAI等提出基于模型的元策略优化强化学习
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言强化学习领域近期 ...
tensorFlow（四）浅层神经网络
tensorFlow见基础实验 MNIST数据集介绍 MNIST是一个手写阿拉伯数字的数据集. 其中包含有60000个已经标注了的训练集,还有10000个用于测试的测试集. 本次实验的任务就是通过手 ...
Tensorflow MNIST浅层神经网络的解释和答复
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/51416540 看到之前的一篇博文:深入 ...
一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
一文读懂深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25 16:29:19 对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化神经网络在训练过程中,为应对过拟合问题,可以采用正则化方法(regularization),一种常用的正则化方法是L2正则化. 神经网络中 ...

随机推荐

zk实践操作
1.入门基础应用场景 ZooKeeper主要服务于分布式系统,可以用ZooKeeper来做:统一配置管理.统一命名服务.分布式锁.集群管理. 使用分布式系统就无法避免对节点管理的问题(需要实时感知节 ...
解决 Error running ‘Application‘: Command line is too long.
一.项目场景:运行刚拉取下来的项目代码,出现下面问题描述的错误提示. 二.问题描述Error running 'Application': Command line is too long. Shor ...
2024-06-15：用go语言，Alice 和 Bob 在一个环形草地上玩一个回合制游戏。草地上分布着一些鲜花，其中 Alice 到 Bob 之间顺时针方向有 x 朵鲜花，逆时针方向有 y 朵鲜花
2024-06-15:用go语言,Alice 和 Bob 在一个环形草地上玩一个回合制游戏. 草地上分布着一些鲜花,其中 Alice 到 Bob 之间顺时针方向有 x 朵鲜花,逆时针方向有 y 朵鲜花 ...
C# 8字节byte数组转int
对方是协议对于整型.长整型等数据类型,Big endian 认为第一个字节是最高位字节(按照从低地址到高地址的顺序存放数据的高位字节到低位字节):而 Little endian 则相反,它认为第一个 ...
python logging去掉selenium大量的日志
问题二次封装logging模块,设置级别为DEBUG,默认所有级别的日志都可以收集到:在发起ui自动化,打开浏览器输入网址,进行页面操作时,打印了大量的connectionpool.remote_c ...
markdown折叠展开代码
背景有的时候,我们的代码太多,直接用cout<<"hello";很不方便. 我们可以将代码折叠. 效果代码普通代码折叠 <details> <s ...
QT6设置应用程序图标
准备好一个ico格式的图标, 放到源码文件中, 比如放在 resources/logo.ico 在源码目录中新建一个icon.rc的文件, 内容如下: IDI_ICON1 ICON DISCARDAB ...
Java JVM——11. 执行引擎
1.概述执行引擎属于JVM的下层,里面包括:解释器.即时编译器.垃圾回收器. 执行引擎是Java虚拟机核心的组成部分之一."虚拟机"是一个相对于"物理机"的概 ...
面向对象VS面向过程
什么是面向对象呢? 对于接触或者熟悉一些编程知识的同学来讲,"面向对象"这个词儿一点儿也不陌生.经常听说XX语言是完全面向对象的编程语言,比如C#.Java这些便是完全面向对象的编 ...
关闭jenkins哪些没用的监控提示。界面清爽许多
1.关闭插件提醒找到如下位置:系统管理-系统配置-管理监控配置根据需要适中禁用相关监控, 2.关闭安全警告提醒找到如下位置:系统管理-全局安全配置-隐藏的安全警告经过两个基本设置,瞬间界面清爽许多 ...

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce） 在训练过程中出现梯度衰退（degenerate）的现象

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce） 在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章

随机推荐

热门专题

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象

基于浅层神经网络（全连接网络）的强化学习算法（Reinforce）在训练过程中出现梯度衰退（degenerate）的现象的更多相关文章