mixup: BEYOND EMPIRICAL RISK MINIMIZATION概述
0.前言
1.针对的问题
大型的深度神经网络存在一些不好的行为,比如记忆性和对抗样本敏感问题。当前的神经网络大多都是基于经验风险最小化(ERM原理)这个基本思想进行学习或训练的,这个思想通过最小化在训练数据的平均误差以拟合真实的数据分布进行学习,当样本容量足够大时,经验风险最小化能保证有很好的学习效果,但是当样本容量很小,函数参数量不断增大时,ERM的训练趋向于记忆训练数据,导致泛化能力不足和难以抵御分布外的对抗样本的问题。(ERM中通过训练集来估计数据分布,但是当样本量不足或参数量太多时,则对真实数据分布的拟合效果很差)
解决ERM问题的一个途径就是使用邻域风险最小化原则(Vicinal Risk Minimization,VRM),即通过先验知识构造训练样本在训练集分布上的邻域值。通常做法就是传统的数据扩充,如翻转,旋转,放缩等,但是这种做法过于依赖特定数据集,需要人类的专门先验知识,并且数据增强假定邻域内样本都是同一类,没有对不同类不同样本之间邻域关系进行建模。(VRM中通过邻域分布来估计数据分布,由于邻域是生成的,所以数据量可以变为“无限”)
2.主要贡献
提出一种新的数据扩展方式,即使用线性插值的方法得到新的扩展数据。
3.方法
前面提到,以传统的数据增强方法得到的邻域存在问题,所以作者提出了一种通用的邻域分布,mixup。
本质上,mixup在成对样本及其标签的凸组合(convex combinations)上训练神经网络。具体来说,假设是两个随机抽取的样本,构建的样本为
,
,
,其中
代表原始输入向量,
代表one-hot标签编码。
实验证明在狄利克雷分布(多变量普遍化的分布)上对三个或者四个特征进行凸组合并不能带来更多的提升,反而会增加计算负担。所以论文中λ满足
分布(伯努利分布乘上[0,1]之间的均匀分布得到),目前mixup的实现使用一个单独的data loader来得到一个minibatch,mixup在随机shuffle之后应用于同一个minibatch。此外,仅在具有相同标签的输入之间进行插值不会得到性能提升
mixup可以理解为一种激励模型在训练数据之间表现出线性的数据扩充方法,作者认为,这种线性行为可以在训练集之外进行预测时增加鲁棒性,减少错误预测的数量。此外,从奥卡姆剃刀(如无必要,勿增实体,即简单有效原理)的角度来看,线性是一种很好的归纳偏差,因为它是最简单的行为之一。
mixup: BEYOND EMPIRICAL RISK MINIMIZATION概述的更多相关文章
- mixup: Beyond Empirical Risk Minimization
这篇论文MIT和FAIR的工作,主要是提出了一种mixup的方式.(感觉是一种产生hard sample的方法,是一种新的.更有效的数据增强.) 1 Introduction 大网络需要大数据,目前C ...
- 小样本利器4. 正则化+数据增强 Mixup Family代码实现
前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力,这一章我们介绍一种嵌入模型的数据增强方案.之前没太重视这种方案,实在是方法过于朴实...不过在最近用的几个数据集上mixup的表 ...
- 论文解读(GraphDA)《Data Augmentation for Deep Graph Learning: A Survey》
论文信息 论文标题:Data Augmentation for Deep Graph Learning: A Survey论文作者:Kaize Ding, Zhe Xu, Hanghang Tong, ...
- AI大有可为:NAIE平台助力垃圾分类
摘要:生活垃圾的分类和处理是目前整个社会都在关注的热点,如何对生活垃圾进行简洁高效的分类与检测对垃圾的运输处理至关重要.AI技术在垃圾分类中的应用成为了关注焦点. 如今AI已经是这个时代智能的代名词了 ...
- Octave Convolution卷积
Octave Convolution卷积 MXNet implementation 实现for: Drop an Octave: Reducing Spatial Redundancy in Conv ...
- deeplearning模型库
deeplearning模型库 1. 图像分类 数据集:ImageNet1000类 1.1 量化 分类模型Lite时延(ms) 设备 模型类型 压缩策略 armv7 Thread 1 armv7 T ...
- YOLOV4知识点分析(二)
YOLOV4知识点分析(二) 6. 数据增强相关-mixup 论文名称:mixup: BEYOND EMPIRICAL RISK MINIMIZATION 论文地址:https://arxiv.org ...
- YOLOV4各个创新功能模块技术分析(二)
YOLOV4各个创新功能模块技术分析(二) 四.数据增强相关-GridMask Data Augmentation 论文名称:GridMask Data Augmentation 论文地址:https ...
- zz姚班天才少年鬲融凭非凸优化研究成果获得斯隆研究奖
姚班天才少年鬲融凭非凸优化研究成果获得斯隆研究奖 近日,美国艾尔弗·斯隆基金会(The Alfred P. Sloan Foundation)公布了2019年斯隆研究奖(Sloan Research ...
- Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
随机推荐
- C语言中static关键字用法
概述 static关键字在c语言中比较常用,使用恰当能够大大提高程序的模块化特性,有利于扩展和维护. 在程序中使用static 变量 1. 局部变量 普通局部变量是再熟悉不过的变量了,在任何一个函数内 ...
- day01-java流程
Scanner对象 基本语法: Scanner s = new Scanner(System.in); next()方法 nextLine()方法 顺序结构 选择结构 if单选结构 语法: if(布尔 ...
- .net core 3.1项目运行在Windows server 2012R2服务器上,Decimal类型小数点不见了,求解!32112.7958
.net core 3.1项目运行在Windows server 2012R2服务器上,Decimal类型小数点不见了,求解! string str = "1002910.8241" ...
- 浅谈storm
storm分布式,可容错的实时计算框架,低延迟能做到毫秒级的响应,storm进程是常驻内存,Hadoop是不断启停的,storm中的数据不经过磁盘,都在内存中,处理完成后就没有了,但是可以写到数据库中 ...
- VSCode配置 关于丢失VSCode默认启动终端一事
在配置前端开发环境的时候碰到一个VSCode 的配置问题,在VSCode 中启用项目的时候,发现默认终端(PowerShell)是空的 项目无法启动,这时候需要自己选择终端 git Bash :自己安 ...
- 《CSOL大灾变》Mobile开发进度记录——扔掉与拾取武器的逻辑
在武器系统的开发过程中,涉及到武器的丢弃逻辑.由于场景是复制场景,而自己写碰撞测试和抛物线以及重力下落来模拟扔掉一把武器,并且要防止武器扔到墙里.如果自己实现这些逻辑,那么会占用渲染线程的时间开销,即 ...
- 神奇的Object.assign()
Object.assign() 方法用于将所有可枚举的属性的值从一个或多个源对象复制到目标对象.它将返回目标对象. 1.Object.assign()可以在对象为一层的时候,实现简单的"深拷 ...
- HCIP-ICT实战进阶05-路由策略与策略路由
HCIP-ICT实战进阶05-路由策略与策略路由 0 前言 什么是路由策略? 基于报文的目的IP地址进行路由表查找, 之后转发数据; 针对控制平面, 为路由协议和路由表服务, 针对路由信息进行过滤或者 ...
- WPF datagrid双击一整行而不是选中单元格
WPF开发一个工具 需要双击datagrid的某一行显示详细数据并编辑,之前双击行(DatagridRow)每次都跳转到单元格上(DatagridCell) 经验证,需要修改datagrid样式的某几 ...
- 第五章:用Python分析商品退单数据并找出异常商品
文章目录 项目背景 获取数据 数据计算 统计次数 异常商品 源码地址 本文可以学习到以下内容: 使用 pandas 中的 read_sql 读取 sqlite 中的数据 获取指定的日期的周一和周日 使 ...