前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力,这一章我们介绍一种嵌入模型的数据增强方案.之前没太重视这种方案,实在是方法过于朴实...不过在最近用的几个数据集上mixup的表现都比较哇塞,所以我们再来聊聊~ Mixup paper: mixup: Beyond Empirical Risk Minimization TF源码:https://github.com/facebookresearch/mixup-cifar10 torch复现:ClassicSolution…
这一篇博客整理用TensorFlow实现神经网络正则化的内容. 深层神经网络往往具有数十万乃至数百万的参数,可以进行非常复杂的特征变换,具有强大的学习能力,因此容易在训练集上过拟合.缓解神经网络的过拟合问题,一般有两种思路,一种是用正则化方法,也就是限制模型的复杂度,比如Dropout.L1和L2正则化.早停和权重衰减(Weight Decay),一种是增大训练样本量,比如数据增强(Data Augmentation).这些方法的原理阐述可以看我之前整理的文章<深度学习之正则化方法>. 下面用…
目录 原文链接:小样本学习与智能前沿 01 Transforming Samples from Dtrain 02 Transforming Samples from a Weakly Labeled or Unlabeled Data Set 03 Transforming Samples from Similar Data Sets Discussion and Summary 原文链接:小样本学习与智能前沿 上一篇:A Survey on Few-Shot Learning | Intro…
最近遇到数据样本数目不足的问题,自己写的增强工具生成数目还是不够,终于在网上找到一个数据增强工具包,足够高级,足够傻瓜.想要多少就有多少!再也不怕数据不够了! 简介 Augmentor是一个Python包,旨在帮助机器学习任务的图像数据人工生成和数据增强.它主要是一种数据增强工具,但也将包含基本的图像预处理功能. 特色 Augmentor是用于图像增强的软件包,重点在于提供通常用于生成机器学习问题的图像数据的操作. Augmentor包含许多用于标准图像处理功能的类,例如Rotate 旋转类.C…
GridMask Data Augmentation, ARXIV 2020 代码地址:https://github.com/akuxcw/GridMask 这篇论文提出了一种简单的数据增强方法,在图像分类.检测.分割三个任务进行实验,效果提升明显. 1. Introduction 作者首先回顾了数据增强(Data augmentation)方法,指出当前方法有三类:spatial transformation, color distortion, 以及 information dropping…
这一章我们不聊模型来聊聊数据,解决实际问题时90%的时间其实都是在和数据作斗争,于是无标注,弱标注,少标注,半标注对应的各类解决方案可谓是百花齐放.在第二章我们也尝试通过多目标对抗学习的方式引入额外的NER样本,或者分词边界来提高people daily小样本数据集的效果. 以下我会结合一些业界的案例和新鲜出炉的NLP数据增强综述,聊聊都有哪些数据增强方案,其中哪些适用于NER以及效果提升.代码详见 people_daily_augment NLP数据增强综述 Paper:Data Augmen…
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现 上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力.这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性.本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大.FGM的tensorflow实现详见Github-SimpleClassification 我们会…
Win10下数据增强及标注工具安装 一.   数据增强利器—Augmentor 1.安装 只需在控制台输入:pip install Augmentor 2.简介 Augmentor是用于图像增强的软件包,重点在于提供通常用于生成机器学习问题的图像数据的操作.其包含许多用于标准图像处理功能的类,例如Rotate 旋转类.Crop 裁剪类等等. 包含的操作有:旋转rotate.裁            剪crop.透视perspective skewing.shearing.弹性形变Elastic…
有人说,「深度学习“等于”深度卷积神经网络算法模型+大规模数据+云端分布式算力」.也有人说,「能够在业内叱咤风云的AI都曾“身经百战”,经历过无数次的训练与试错」.以上都需要海量数据做依托,对于那些数据量匮乏的领域,就衍生出了数据增强技术.即,根据一个原始数据,稍作改动,变成一个对于AI来说的全新的数据. 01 为什么做数据增强? 数据规模的重要性到底怎样呢?可以说,深度学习的火热和蓬勃发展,直接源于普林斯顿大学教授李飞飞及她所带领的团队创作的一个包含百万级图片的数据集ImageNet.工业级人…
几何变换 flip:水平翻转,也叫镜像:垂直翻转 rotation:图片旋转一定的角度,这个可以通过opencv来操作,各个框架也有自己的算子 crop:随机裁剪,比如说,在ImageNet中可以将输入图片进行裁剪,然后输入. 颜色变换 hue:灰度调节, contrast:在图像的HSV颜色空间,改变H,S和V亮度分量,增加光照变化.对光照有特殊要求的可以使用 saturation:图像饱和度 exposure:增加曝光 多个区域置零 random erase:随机擦除,将图片中的某个区域置零…