人工智能模型训练技术：随机失活，丢弃法，Dropout

前一篇：《探索训练人工智能模型的词汇大小与模型的维度》

序言：Dropout 是神经网络设计领域的一种技术，通常我们把它翻译成随机失活或者丢弃法。如果训练神经网络的时候不用 Dropout，模型就很容易“读死书”，也就是过拟合，结果可能导致项目失败。

那 Dropout 到底在干什么呢？其实很简单，就是在训练模型的时候，随机关掉隐藏层中的一些神经元，不让它们输出结果。没什么玄乎的，就是这么直接。比如说，在每一轮（epoch）训练中，会随机挑一些神经元“闭麦”，让它们暂时休息，输出值设为 0。但需要注意的是，哪些神经元会被关掉是随机的，每次都不一样，而不是每次关掉一批固定的神经元。这样操作的好处是，模型必须依赖所有神经元协同工作，去学习更普遍的规律，而不是只死记硬背几个特定特征。所以 Dropout 能很好地解决模型的“读死书”问题，让它更灵活、更聪明，也更有能力去识别它从未见过的新知识。

使用 Dropout

在减少过拟合方面，一个常用的技巧是在全连接神经网络中加入 Dropout。我们在第 3 章中探讨了它在卷积神经网络中的应用。这时可能会很想直接使用 Dropout 来看看它对过拟合的效果，但在这里我选择先不急着用，而是等到词汇表大小、嵌入维度和架构复杂度都调整好之后再试。毕竟，这些调整往往比使用 Dropout 对模型效果的影响更大，而我们已经从这些调整中看到了不错的结果。

现在，我们的架构已经简化到中间的全连接层只有 8 个神经元了，因此 Dropout 的作用可能会被最小化，但我们还是来试一试吧。以下是更新后的模型代码，加入了 0.25 的 Dropout（这相当于我们 8 个神经元中丢弃了 2 个）：

model = tf.keras.Sequential([

tf.keras.layers.Embedding(vocab_size, embedding_dim),

tf.keras.layers.GlobalAveragePooling1D(),

tf.keras.layers.Dense(8, activation='relu'),

tf.keras.layers.Dropout(0.25),

tf.keras.layers.Dense(1, activation='sigmoid')

])

图 6-14 显示了训练 100 个周期后的准确率结果。这次我们看到训练集的准确率开始超过之前的阈值，而验证集的准确率则在慢慢下降。这表明我们又进入了过拟合的区域。

这一点通过图 6-15 的损失曲线得到了验证。

图 6-14：加入 Dropout 后的准确率

图 6-15：加入 Dropout 后的损失

从这里你可以看到，模型的验证损失又开始呈现出之前那种随着时间增加的趋势。虽然情况没有之前那么糟糕，但显然方向是不对的。

在这种情况下，由于神经元的数量非常少，加入 Dropout 可能并不是一个合适的选择。不过，Dropout 仍然是一个很好的工具，要记得把它放进你的工具箱，在比这个更复杂的架构中使用它。

总结：本节示例演示了在网络中引入 Dropout 的效果。从实验中我们可以看到，Dropout 是一个有效的工具，但它的作用依赖于模型架构和具体场景。对于像本例中这种简化的模型，Dropout 的影响较小。但在更复杂的模型中，它往往是防止过拟合的关键手段。接下来，我们还会介绍几种优化技术，帮助进一步解决模型过拟合的“读死书”问题

人工智能模型训练技术：随机失活，丢弃法，Dropout的更多相关文章

理解dropout——本质是通过阻止特征检测器的共同作用来防止过拟合 Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了
理解dropout from:http://blog.csdn.net/stdcoutzyx/article/details/49022443 http://www.cnblogs.com/torna ...
小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播
下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
MXNET：丢弃法
除了前面介绍的权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题. 方法与原理为了确保测试模型的确定性,丢弃法的使用只发生在训练模型时,并非测试模型时.当神经网络中的某一层使 ...
谷歌大规模机器学习：模型训练、特征工程和算法选择 (32PPT下载)
本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 ...
【神经网络】丢弃法（dropout）
丢弃法是一种降低过拟合的方法,具体过程是在神经网络传播的过程中,随机"沉默"一些节点.这个行为让模型过度贴合训练集的难度更高. 添加丢弃层后,训练速度明显上升,在同样的轮数下测试集 ...
零样本文本分类应用：基于UTC的医疗意图多分类，打通数据标注-模型训练-模型调优-预测部署全流程。
零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程. 1.通用文本分类技术UTC介绍本项目提供基于通用文本分类 UTC(Universal Text C ...
AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤定义算法公 ...
深度学习面试题14：Dropout(随机失活)
目录卷积层的dropout 全连接层的dropout Dropout的反向传播 Dropout的反向传播举例参考资料在训练过程中,Dropout会让输出中的每个值以概率keep_prob变为原来 ...

随机推荐

全网最适合入门的面向对象编程教程：38 Python常用复合数据类型-使用列表实现堆栈、队列和双端队列
全网最适合入门的面向对象编程教程:38 Python 常用复合数据类型-使用列表实现堆栈.队列和双端队列摘要: 在 Python 中,列表(list)是一种非常灵活的数据结构,可以用来实现堆栈(st ...
echarts x轴下绘制表
效果图: 把下面代码复制到官网实例的js代码编辑中即可预览( 附连接:Examples - Apache ECharts) let map = { 销售单价: [2200.0,4000.9,700.0 ...
Windows PE 安装
Microsoft 官方提供的 Windows PE 默认只有命令行界面.如果想要使用带有桌面环境的 Windows PE,推荐使用微 PE . 下载并安装 Windows ADK 和 WinPE 加 ...
JMeter手机app录制
在移动应用的性能测试中,如何准确.全面地捕捉用户操作并生成可复用的测试脚本,始终是测试工程师面临的一大挑战.而JMeter,作为一款功能强大的开源性能测试工具,不仅在Web测试中表现优异,在手机App ...
Android 获取当前获取焦点的组件
在Activity中,使用this.getCurrentFocus(),获取当前焦点所在的View, 再判断是否是EditText(可调整成其他组件),看个人需要再做特定的逻辑处理 String co ...
Json转实体类问题
背景:使用一个实体类,将json及xml转成对应的实体类 Transformers.fromJson 将json映射成对应的实体类, 原本已经测试,传xml是可以的,传的有字段及list<E&g ...
android 播放视频页面黑屏，且报错：Couldn't open 'xxxxxx' java.io.FileNotFoundException: No content provider:
原因为,activity的顶部布局,VideoView设定了android:background="@color/bg_black"去掉就可以了之前跑着都正常,改了UI后就没有去 ...
MySQL read view 在RR和RC隔离级别下的异同
1.首先了解下什么是read view 这里说的 read view 是InnoDB 在实现 MVCC 时用到的一致性读视图,即 consistent read view,用于支持 RC(Read C ...
Angular Material 18+ 高级教程 – 大杂烩
前言本篇记入一些 Angular Material 的小东西. Override Material Icon Button Size 参考:Stack Overflow – Change size ...
t-io 学习笔记（一）
基础介绍理解篇序:本文也是在t-io官网学习的基础上写的理解学习笔记:1.什么是t-io? t-io是基于JVM的网络编程框架,和netty属同类,所以netty能做的t-io都能做,考虑到 ...

人工智能模型训练技术：随机失活，丢弃法，Dropout

人工智能模型训练技术：随机失活，丢弃法，Dropout的更多相关文章

随机推荐

热门专题