人工智能模型训练技术：随机失活，丢弃法，Dropout

前一篇：《探索训练人工智能模型的词汇大小与模型的维度》

序言：Dropout 是神经网络设计领域的一种技术，通常我们把它翻译成随机失活或者丢弃法。如果训练神经网络的时候不用 Dropout，模型就很容易“读死书”，也就是过拟合，结果可能导致项目失败。

那 Dropout 到底在干什么呢？其实很简单，就是在训练模型的时候，随机关掉隐藏层中的一些神经元，不让它们输出结果。没什么玄乎的，就是这么直接。比如说，在每一轮（epoch）训练中，会随机挑一些神经元“闭麦”，让它们暂时休息，输出值设为 0。但需要注意的是，哪些神经元会被关掉是随机的，每次都不一样，而不是每次关掉一批固定的神经元。这样操作的好处是，模型必须依赖所有神经元协同工作，去学习更普遍的规律，而不是只死记硬背几个特定特征。所以 Dropout 能很好地解决模型的“读死书”问题，让它更灵活、更聪明，也更有能力去识别它从未见过的新知识。

使用 Dropout

在减少过拟合方面，一个常用的技巧是在全连接神经网络中加入 Dropout。我们在第 3 章中探讨了它在卷积神经网络中的应用。这时可能会很想直接使用 Dropout 来看看它对过拟合的效果，但在这里我选择先不急着用，而是等到词汇表大小、嵌入维度和架构复杂度都调整好之后再试。毕竟，这些调整往往比使用 Dropout 对模型效果的影响更大，而我们已经从这些调整中看到了不错的结果。

现在，我们的架构已经简化到中间的全连接层只有 8 个神经元了，因此 Dropout 的作用可能会被最小化，但我们还是来试一试吧。以下是更新后的模型代码，加入了 0.25 的 Dropout（这相当于我们 8 个神经元中丢弃了 2 个）：

model = tf.keras.Sequential([

tf.keras.layers.Embedding(vocab_size, embedding_dim),

tf.keras.layers.GlobalAveragePooling1D(),

tf.keras.layers.Dense(8, activation='relu'),

tf.keras.layers.Dropout(0.25),

tf.keras.layers.Dense(1, activation='sigmoid')

])

图 6-14 显示了训练 100 个周期后的准确率结果。这次我们看到训练集的准确率开始超过之前的阈值，而验证集的准确率则在慢慢下降。这表明我们又进入了过拟合的区域。

这一点通过图 6-15 的损失曲线得到了验证。

图 6-14：加入 Dropout 后的准确率

图 6-15：加入 Dropout 后的损失

从这里你可以看到，模型的验证损失又开始呈现出之前那种随着时间增加的趋势。虽然情况没有之前那么糟糕，但显然方向是不对的。

在这种情况下，由于神经元的数量非常少，加入 Dropout 可能并不是一个合适的选择。不过，Dropout 仍然是一个很好的工具，要记得把它放进你的工具箱，在比这个更复杂的架构中使用它。

总结：本节示例演示了在网络中引入 Dropout 的效果。从实验中我们可以看到，Dropout 是一个有效的工具，但它的作用依赖于模型架构和具体场景。对于像本例中这种简化的模型，Dropout 的影响较小。但在更复杂的模型中，它往往是防止过拟合的关键手段。接下来，我们还会介绍几种优化技术，帮助进一步解决模型过拟合的“读死书”问题

人工智能模型训练技术：随机失活，丢弃法，Dropout的更多相关文章

理解dropout——本质是通过阻止特征检测器的共同作用来防止过拟合 Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了
理解dropout from:http://blog.csdn.net/stdcoutzyx/article/details/49022443 http://www.cnblogs.com/torna ...
小白学习之pytorch框架(6)-模型选择(K折交叉验证)、欠拟合、过拟合(权重衰减法(=L2范数正则化)、丢弃法)、正向传播、反向传播
下面要说的基本都是<动手学深度学习>这本花书上的内容,图也采用的书上的首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
MXNET：丢弃法
除了前面介绍的权重衰减以外,深度学习模型常常使用丢弃法(dropout)来应对过拟合问题. 方法与原理为了确保测试模型的确定性,丢弃法的使用只发生在训练模型时,并非测试模型时.当神经网络中的某一层使 ...
谷歌大规模机器学习：模型训练、特征工程和算法选择 (32PPT下载)
本文转自:http://mp.weixin.qq.com/s/Xe3g2OSkE3BpIC2wdt5J-A 谷歌大规模机器学习:模型训练.特征工程和算法选择 (32PPT下载) 2017-01-26 ...
【神经网络】丢弃法（dropout）
丢弃法是一种降低过拟合的方法,具体过程是在神经网络传播的过程中,随机"沉默"一些节点.这个行为让模型过度贴合训练集的难度更高. 添加丢弃层后,训练速度明显上升,在同样的轮数下测试集 ...
零样本文本分类应用：基于UTC的医疗意图多分类，打通数据标注-模型训练-模型调优-预测部署全流程。
零样本文本分类应用:基于UTC的医疗意图多分类,打通数据标注-模型训练-模型调优-预测部署全流程. 1.通用文本分类技术UTC介绍本项目提供基于通用文本分类 UTC(Universal Text C ...
AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤定义算法公 ...
深度学习面试题14：Dropout(随机失活)
目录卷积层的dropout 全连接层的dropout Dropout的反向传播 Dropout的反向传播举例参考资料在训练过程中,Dropout会让输出中的每个值以概率keep_prob变为原来 ...

随机推荐

Python正则表达式提取车牌号
在Python中使用正则表达式(Regular Expressions)来提取车牌号是一个常见的任务,尤其是在处理车辆信息或进行图像识别后的文本处理时.中国的车牌号格式多种多样,但通常包含省份简称.英 ...
折腾 Quickwit，Rust 编写的分布式搜索引擎-官方配置详解
Node configuration(节点配置) 节点配置允许您为集群中的各个节点自定义和优化设置.它被分为几个部分: 常规配置设置:共享的顶级属性 Storage(存储)设置:在storage部分定 ...
chrome 被hao123 劫持处理
打开chrome,就进入baidu.com/xxx,烦人,浏览器被劫持了XXXX 查注册表hao123,删除找到的进入chrome设置,修改主页新标签页装杀毒软件,查杀病毒修改chrome名等 ...
使用win-acme在windows+iis服务器下配置自动续期SSL证书【转】
发现阿里云免费证书只有3个月有效期了,手动操作太麻烦,咨询阿里云客服,阿里云说这是大势所趋,遂转向其他云,后来发现百度云还有1年的免费证书,继续问阿里云客服,其他友商都还在免费1年的,为啥阿里云免费的 ...
echarts 等相关问题解答过程
echarts 绘制中国地图https://blog.csdn.net/sleepwalker_1992/article/details/126959198 elmentui table数据轮播显示: ...
TypeScript 高级教程 – 把 TypeScript 当强类型语言使用 (第一篇)
前言原本是想照着 TypeScript 官网 handbook 写个教程的. 但提不起那个劲... 所以呢, 还是用我自己的方式写个复习和进阶笔记就好了呗. 以前写过的 TypeScript 笔记: ...
ASP.NET Core – Work with X509
前言这篇主要是说如何用 ASP.NET Core 读写系统里的证书 Store 和创建一个证书, 还有使用证书做加密, 解密, 签名. 主要参考: C#数字证书编程总结 (读写证书 Store) E ...
ASP.NET Core C# 反射 & 表达式树 (第二篇)
前言上一篇讲到了各种反射的操作方式, 这一篇主要说说如何找到类型. Type Information 在找类型的时候, 除了依据简单的 string 以外, 还会用到很多类型属性来做判断. 比如它是 ...
C++ 指针基础
指针指针具有强大的能力,其本质是协助程序员完成内存的直接操作指针: 特定类型数据在内存中的存储地址,即内存地址指针只是一个逻辑概念,其实际应用是:指针变量语法 * 符号有两种含义: 声明时:* ...
理解 Vue 的 setup 应用程序钩子
title: 理解 Vue 的 setup 应用程序钩子 date: 2024/9/30 updated: 2024/9/30 author: cmdragon excerpt: 摘要:本文详细介绍了 ...

人工智能模型训练技术：随机失活，丢弃法，Dropout

人工智能模型训练技术：随机失活，丢弃法，Dropout的更多相关文章

随机推荐

热门专题