强化学习训练过程中的过度拟合(overfitting)

本文讨论的是强化学习中的过度拟合问题，要知道强化学习中的过拟合和其他的监督、无监督学习的过拟合不太一样，主要是因为强化学习中的过拟合情况复杂、场景多样，难以用简单语言描述，而监督、无监督学习中的过拟合情况单一容易描述，所以在强化学习中对于过拟合的问题都是极少的，或者是要针对特定情况给出举例的，而本文就依照这个赛车游戏问题给出一种情况的强化学习过拟合问题。

在这个游戏中（A.I. Learns to Drive From Scratch in Trackmania）是使用DQN进行训练的，由于这个这个游戏环境比较复杂，因此DQN训练的agent的episode的长度增长十分的缓慢，由于episode长度增长缓慢反之导致agent对新场景见的频率极低，而这反过来加剧了agent的episodes的长度的训练困难性，于是陷入到循环困难中导致DQN难以有很好的效果和算法性能，可以看到这种问题的出现就是因为游戏难度大导致agent长期陷入到较短episodes环境中从而出现了对较短路径的过拟合于是更难以探索更长episode了。

为了解决这里的过拟合问题，原作者使用随机生成赛车出发点的方式进行训练，结果发现很好的克服了过拟合问题，使agent的性能在训练过程中有了明显提升。在这里使用随机生成出发点的方法和随机生成不同的小地图进行训练时同样的作用的，都是克服agent的过拟合的。

这时候可能有人会问，为什么在DQN运行在atari游戏环境下没有出现过拟合，而在这个赛车游戏中出现了过拟合了呢？其实答案很简单，那就是因为这里的这个赛车游戏难度明显高于大部分的atari游戏，导致agent的episode长度很短，并且难以增长，所以导致大部分的训练数据（采集到的数据）都停滞在较短的episodes的背景下，由此产生了大量的相似训练数据，于是导致出现了这里的过拟合问题；而atari游戏相对简单些，DQN在atari游戏中可以保持一个比较好的episode长度的增长速率，这样随着agent在atari游戏中episode的长度增加自然就避免了agent陷入过拟合问题中。可以认为这里的赛车游戏出现的过拟合就是因为agent陷入了较差的局部最优解中，导致大量的低质量的探索数据，从而产生了过拟合，反过来导致agent在局部最优中更加难以跳出，如此陷入反复恶化的情景中。

强化学习算法library库：(集成库)

https://github.com/Denys88/rl_games

https://github.com/Domattee/gymTouch

个人github博客地址：

https://devilmaycry812839668.github.io/

强化学习训练过程中的过度拟合(overfitting)的更多相关文章

深度学习训练过程中的学习率衰减策略及pytorch实现
学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoc ...
TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题
一:适用范围: tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层二:原理: dropout就是在不同的训练过程中随机扔掉一部分神经元.也就是让 ...
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化神经网络在训练过程中,为应对过拟合问题,可以采用正则化方法(regularization),一种常用的正则化方法是L2正则化. 神经网络中 ...
如何使用自对弈强化学习训练一个五子棋机器人Alpha Gobang Zero
前言 2016年3月,Alpha Go 与围棋世界冠军.职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,在当时引起了轩然大波.2017年10月,谷歌公布了新版五子棋程序 AlphaGo Ze ...
关于HTML中，绝对定位，相对定位的理解...（学习HTML过程中的小记录）
关于HTML中,绝对定位,相对定位的理解...(学习HTML过程中的小记录) 作者:王可利(Star·星星) HTML中相对定位:position:relative; 绝对定位:position ...
利用JQ实现的，高仿彩虹岛官网导航栏（学习HTML过程中的小记录）
利用JQ实现的,高仿彩虹岛官网导航栏(学习HTML过程中的小记录) 作者:王可利(Star·星星) 总结: 今天学习的jQ类库的使用,代码重复的比较多需要完善.严格区分大小写,在 $(" ...
html/css 盒子布局 Margin 、Padding 、border 以及清除浮动的知识（学习HTML过程中的小记录）
html/css 盒子布局 Margin .Padding .border 以及清除浮动的知识 (学习HTML过程中的小记录) 作者:王可利(Star·星星) width 是"宽 ...
（转）理解YOLOv2训练过程中输出参数含义
最近有人问起在YOLOv2训练过程中输出在终端的不同的参数分别代表什么含义,如何去理解这些参数?本篇文章中我将尝试着去回答这个有趣的问题. 刚好现在我正在训练一个YOLOv2模型,拿这个真实的例子来讨 ...
tensorflow训练过程中内存溢出
罪魁祸首是训练过程中给模型传值时的如下语句:
理解YOLOv2训练过程中输出参数含义
原英文地址: https://timebutt.github.io/static/understanding-yolov2-training-output/ 最近有人问起在YOLOv2训练过程中输出在 ...

随机推荐

高阶函数之reduce
let arrone = [1, 2, 3, 4] let arrtwo = [{ age: 1 }, { age: 2 }, { age: 3 }] let arrthree = [[1, 2, 3 ...
PowerShell快速修改多个文件的名称
本文介绍基于PowerShell语言,对文件夹中全部文件的名称加以批量替换.修改的方法. 在之前的文章中,我们介绍了基于Python语言,批量修改大量文件的名称的方法.当时我们修改文件名的需求 ...
curl可以访问虚拟机资源，但是宿主机浏览器不能访问
如果想从宿主机访问到虚拟机内的php,需要关闭宿主机的代理,并且设置虚拟机内的防火墙不要屏蔽宿主机的ip. 设置虚拟机防火墙方法: 查找宿主机IP:win+r,输入ipconfig 打开虚拟机,输入s ...
hass安装tileboard详细
首先下载tileboard https://github.com/resoai/TileBoard/releases/download/v2.10.2/TileBoard.zip 下载之后前往hass ...
受 LabelImg 启发的基于 web 的图像标注工具，基于 Vue 框架
受 LabelImg 启发的基于 web 的图像标注工具,基于 Vue 框架哟,网友们好,年更鸽子终于想起了他的博客园密码.如标题所述,今天给大家带来的是一个基于 vue2 的图像标注工具.至于 ...
2023/11/16 NOIP 模拟赛
T1 基于1的算术标签暴力枚举思路1 赛时想了个假的 DP,只拿了 77 分,,, 小于 $10^{15}$ 的仅由 $1$ 组成的数只有 $15$ 个,直接枚举即可. 想了一个做法 ...
sql 查询表数据
SELECT s.Name AS SchemaName, t.Name AS TableName, p.rows AS RowCounts--, --CAST(ROUND((SUM(a.used_pa ...
CCIA数安委等组织发布PIA星级标识名单，合合信息再次通过数据安全领域权威评估
CCIA数安委等组织发布PIA星级标识名单,合合信息再次通过数据安全领域权威评估近期,"中国网络安全产业联盟(CCIA)数据安全工作委员会"."数据安全共同体计划( ...
logisim学习感想（持续更新）
状态机类型存在两种类型的状态机,分别为mealy型状态机和moore型状态机,在实验中,二者的大体实现如下: 其中从输入到输出的连线只有mealy状态机才有,而moore型则无此线. 区分两种类型的 ...
CSP2024-S 游记
9-21 今天考完了初赛,明显感觉数学门槛变高了一些,有高中数学知识才能保证看得懂题意,只是苦了小学和初中同学,看数据参加人数还涨了50%,权当拉低分数线了吧.用小图灵估分70.应该是稳过.

强化学习训练过程中的过度拟合(overfitting)

强化学习训练过程中的过度拟合(overfitting)的更多相关文章

随机推荐

热门专题