强化学习训练过程中的过度拟合(overfitting)

本文讨论的是强化学习中的过度拟合问题，要知道强化学习中的过拟合和其他的监督、无监督学习的过拟合不太一样，主要是因为强化学习中的过拟合情况复杂、场景多样，难以用简单语言描述，而监督、无监督学习中的过拟合情况单一容易描述，所以在强化学习中对于过拟合的问题都是极少的，或者是要针对特定情况给出举例的，而本文就依照这个赛车游戏问题给出一种情况的强化学习过拟合问题。

在这个游戏中（A.I. Learns to Drive From Scratch in Trackmania）是使用DQN进行训练的，由于这个这个游戏环境比较复杂，因此DQN训练的agent的episode的长度增长十分的缓慢，由于episode长度增长缓慢反之导致agent对新场景见的频率极低，而这反过来加剧了agent的episodes的长度的训练困难性，于是陷入到循环困难中导致DQN难以有很好的效果和算法性能，可以看到这种问题的出现就是因为游戏难度大导致agent长期陷入到较短episodes环境中从而出现了对较短路径的过拟合于是更难以探索更长episode了。

为了解决这里的过拟合问题，原作者使用随机生成赛车出发点的方式进行训练，结果发现很好的克服了过拟合问题，使agent的性能在训练过程中有了明显提升。在这里使用随机生成出发点的方法和随机生成不同的小地图进行训练时同样的作用的，都是克服agent的过拟合的。

这时候可能有人会问，为什么在DQN运行在atari游戏环境下没有出现过拟合，而在这个赛车游戏中出现了过拟合了呢？其实答案很简单，那就是因为这里的这个赛车游戏难度明显高于大部分的atari游戏，导致agent的episode长度很短，并且难以增长，所以导致大部分的训练数据（采集到的数据）都停滞在较短的episodes的背景下，由此产生了大量的相似训练数据，于是导致出现了这里的过拟合问题；而atari游戏相对简单些，DQN在atari游戏中可以保持一个比较好的episode长度的增长速率，这样随着agent在atari游戏中episode的长度增加自然就避免了agent陷入过拟合问题中。可以认为这里的赛车游戏出现的过拟合就是因为agent陷入了较差的局部最优解中，导致大量的低质量的探索数据，从而产生了过拟合，反过来导致agent在局部最优中更加难以跳出，如此陷入反复恶化的情景中。

强化学习算法library库：(集成库)

https://github.com/Denys88/rl_games

https://github.com/Domattee/gymTouch

个人github博客地址：

https://devilmaycry812839668.github.io/

强化学习训练过程中的过度拟合(overfitting)的更多相关文章

深度学习训练过程中的学习率衰减策略及pytorch实现
学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoc ...
TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题
一:适用范围: tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层二:原理: dropout就是在不同的训练过程中随机扔掉一部分神经元.也就是让 ...
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化神经网络在训练过程中,为应对过拟合问题,可以采用正则化方法(regularization),一种常用的正则化方法是L2正则化. 神经网络中 ...
如何使用自对弈强化学习训练一个五子棋机器人Alpha Gobang Zero
前言 2016年3月,Alpha Go 与围棋世界冠军.职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,在当时引起了轩然大波.2017年10月,谷歌公布了新版五子棋程序 AlphaGo Ze ...
关于HTML中，绝对定位，相对定位的理解...（学习HTML过程中的小记录）
关于HTML中,绝对定位,相对定位的理解...(学习HTML过程中的小记录) 作者:王可利(Star·星星) HTML中相对定位:position:relative; 绝对定位:position ...
利用JQ实现的，高仿彩虹岛官网导航栏（学习HTML过程中的小记录）
利用JQ实现的,高仿彩虹岛官网导航栏(学习HTML过程中的小记录) 作者:王可利(Star·星星) 总结: 今天学习的jQ类库的使用,代码重复的比较多需要完善.严格区分大小写,在 $(" ...
html/css 盒子布局 Margin 、Padding 、border 以及清除浮动的知识（学习HTML过程中的小记录）
html/css 盒子布局 Margin .Padding .border 以及清除浮动的知识 (学习HTML过程中的小记录) 作者:王可利(Star·星星) width 是"宽 ...
（转）理解YOLOv2训练过程中输出参数含义
最近有人问起在YOLOv2训练过程中输出在终端的不同的参数分别代表什么含义,如何去理解这些参数?本篇文章中我将尝试着去回答这个有趣的问题. 刚好现在我正在训练一个YOLOv2模型,拿这个真实的例子来讨 ...
tensorflow训练过程中内存溢出
罪魁祸首是训练过程中给模型传值时的如下语句:
理解YOLOv2训练过程中输出参数含义
原英文地址: https://timebutt.github.io/static/understanding-yolov2-training-output/ 最近有人问起在YOLOv2训练过程中输出在 ...

随机推荐

02-canvas注意点
1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="U ...
k8s实践——命名空间隔离+request-key机制解决CSI内核态域名解析
0x01 背景 Pod需要使用远程存储的PV,由同k8s集群内的服务提供的存储服务.一开始的做法是: CSI中解析Service的clusterIP. 然后使用clusterIP挂载PV卷. 但因为走 ...
禅道项目管理系统权限绕过漏洞（QVD-2024-15263）
本文所涉及的任何技术.信息或工具,仅供学习和参考之用,请勿将文章内的相关技术用于非法目的,如有相关非法行为与文章作者无关.请遵守<中华人民共和国网络安全法>. 1. 概述 1.1 基本信息 ...
BST 二叉搜索树 BinarySearchTree C++实现(递归/非递归)
目录二叉搜索树基本概念常用结论用途二叉搜索树的性能分析二叉搜索树的操作查找插入删除代码实现 BSTree.hpp test.cc 二叉搜索树基本概念二叉搜索树(BST,Bina ...
JavaScript设计模式样例七 —— 原型模式
原型模式(Prototype Pattern) 定义:用于创建重复的对象,同时又能保证性能.目的:用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象.场景:在运行期建立和删除原型. let ...
Tree组件的快速定位更新节点的状态,以及修改节点的数据属性等操作
当我们点击树节点的时候我们常常只能获得树的id,那么我么如何获快速定位到树节点的内容呢,除此之外,当树已经存在时,但是缺少我们想要的内容时,我们想在树节点上添加我们需要的额外的内容时该怎么办,那么就是 ...
release版本 APP 出现waiting for debugger
前提:同一包代码,打包两个版本,修改包名,在同一设备上存在两个版本状态:运行时,发现一版本是正常另一版本打开会提示 Waiting for debugger弹窗,(此时由于是开发状态,设备一直开 ...
Java怎么把多个对象的list的数据合并
1.示例一:创建几个包含Person对象的List,并将它们合并成一个新的List 在Java中,将多个对象的List合并通常涉及到遍历这些List并将它们的元素添加到一个新的List中.这里,我将给 ...
Angular 18+ 高级教程 – Component 组件の Angular Component vs Custom Elements
前言在上一篇 Angular Component vs Web Component 中,我们整体对比了 Angular Component 和 Web Component 的区别. 这一篇我们将针对 ...
Angular 学习笔记 (Typescript 高级篇)
由于 typescript 越来越复杂. 所以特意开多一个篇幅来记入一些比较难的, 和一些到了一定程度需要知道的基础. 主要参考 https://basarat.gitbook.io/typescri ...

强化学习训练过程中的过度拟合(overfitting)

强化学习训练过程中的过度拟合(overfitting)的更多相关文章

随机推荐

热门专题