Dropout和学习率衰减

　 Dropout　

　　在机器学习的模型中，如果模型的参数太多，而训练样本又太少，训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题，过拟合具体表现在：模型在训练数据上损失函数较小，预测准确率较高；但是在测试数据上损失函数比较大，预测准确率较低。

　　过拟合是很多机器学习的通病。如果模型过拟合，那么得到的模型几乎不能用。为了解决过拟合问题，一般会采用模型集成的方法，即训练多个模型进行组合。此时，训练模型费时就成为一个很大的问题，不仅训练多个模型费时，测试多个模型也是很费时。

　　综上所述，训练深度神经网络的时候，总是会遇到两大缺点：

　　容易过拟合
　　费时

　　Dropout可以比较有效的缓解过拟合的发生，在一定程度上达到正则化的效果。Dropout是在训练过程中，随机地忽略部分神经元。也就是说，在正向传播过程中，这些被忽略的神经元对下游神经元的贡献效果暂时消失；在反向传播时，这些神经元也不会有任何权值的更新。

　　Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。这种方式可以减少特征检测器（隐层节点）间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

　　隐含节点Dropout率等于0.5的时候效果最好，此时Dropout随机生成的网络结构最多。

　　学习率衰减

　　学习率决定了参数移动到最优值是的速度。如果学习率过大，很可能会越过最优值；反之，如果学习率过小，优化的效率可能过低，长时间算法无法收敛。学习率衰减可以平衡两者之间矛盾。

　　基本思想：学习率随着训练的进行逐渐衰减。在训练过程开始时，使用较大的学习率值，可以使结果快速收敛，随着训练的进行，逐步降低学习率和收敛的速度，有助于找到最优结果。

　　目前比较流行两种学习率衰减方法：线性衰减和指数衰减。

　　1.线性衰减

　　Learning Rate = Learning Rate * 1/(1 + decay * epoch)

　　2.指数衰减

　　Learning Rate = Initial Learning Rate * Drop Rate^{floor[(1 + Epoch)/Epoch Drop]}

　　decay为衰减率，epoch为迭代数。

Dropout和学习率衰减的更多相关文章

权重衰减（weight decay）与学习率衰减（learning rate decay）
本文链接:https://blog.csdn.net/program_developer/article/details/80867468“微信公众号” 1. 权重衰减(weight decay)L2 ...
TensorFlow之DNN（二）：全连接神经网络的加速技巧(Xavier初始化、Adam、Batch Norm、学习率衰减与梯度截断)
在上一篇博客<TensorFlow之DNN(一):构建“裸机版”全连接神经网络>中,我整理了一个用TensorFlow实现的简单全连接神经网络模型,没有运用加速技巧(小批量梯度下降不算哦) ...
改善深层神经网络_优化算法_mini-batch梯度下降、指数加权平均、动量梯度下降、RMSprop、Adam优化、学习率衰减
1.mini-batch梯度下降在前面学习向量化时,知道了可以将训练样本横向堆叠,形成一个输入矩阵和对应的输出矩阵: 当数据量不是太大时,这样做当然会充分利用向量化的优点,一次训练中就可以将所有训练 ...
Tensorflow实现学习率衰减
Tensorflow实现学习率衰减觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 Deeplearning AI Andrew Ng Tensorflow1.2 API 学习率衰减 ...
吴恩达深度学习笔记（五） —— 优化算法：Mini-Batch GD、Momentum、RMSprop、Adam、学习率衰减
主要内容: 一.Mini-Batch Gradient descent 二.Momentum 四.RMSprop 五.Adam 六.优化算法性能比较七.学习率衰减一.Mini-Batch Grad ...
Adam和学习率衰减（learning learning decay）
目录梯度下降法更新参数 Adam 更新参数 Adam + 学习率衰减 Adam 衰减的学习率 References 本文先介绍一般的梯度下降法是如何更新参数的,然后介绍 Adam 如何更新参数,以及 ...
ubuntu之路——day8.5 学习率衰减learning rate decay
在mini-batch梯度下降法中,我们曾经说过因为分割了baby batch,所以迭代是有波动而且不能够精确收敛于最小值的因此如果我们将学习率α逐渐变小,就可以使得在学习率α较大的时候加快模型训练 ...
[深度学习] pytorch学习笔记（3）(visdom可视化、正则化、动量、学习率衰减、BN)
一.visdom可视化工具安装:pip install visdom 启动:命令行直接运行visdom 打开WEB:在浏览器使用http://localhost:8097打开visdom界面二.使 ...
TensorFlow——学习率衰减的使用方法
在TensorFlow的优化器中, 都要设置学习率.学习率是在精度和速度之间找到一个平衡: 学习率太大,训练的速度会有提升,但是结果的精度不够,而且还可能导致不能收敛出现震荡的情况. 学习率太小,精度 ...

随机推荐

解决Eclipse和myeclipse在进行 html,jsp等页面编辑时，自动格式化变丑的问题
在eclipse和myelipse写JAVA代码时中使用ctrl+shift+f 快捷键自动排版省时又省力,排版后的代码规范美观又层次性,但在我们写jsp或html代码时,使用这个快捷键排版简直奇丑无 ...
防止未登录用户操作—struts2拦截器简单实现（转）
原文地址:http://blog.csdn.net/zhutulang/article/details/38351629 尊重原创,请访问原地址一般,我们的web应用都是只有在用户登录之后才允许操作 ...
Python习题-统计日志中访问次数超过限制的IP
#1.1分钟之内ip访问次数超过200次的,就给他的ip加入黑名单#需求分析: #1.读日志,1分钟读一次 #2.获取这1分钟之内所有访问的ip #3.判断ip出现的次数,如果出现200次,那么就加入 ...
hibernate复习第（二）天
今日要点: 关联映射多对一(Employee - Department) 一对多(Department - Employee) 一对一(Person - IdCard) 多对多(teachet - ...
QTableWidget设计原则
一.组成结构: 列表控件由水平表头(self.horizontalHeader()).垂直表头(self.verticalHeader())和单元格(QTableWidgetItem)组成其中表头又 ...
SQL Server 2008可以安装在win7 64位的系统上吗？
可以安装的.SQL 支持32和64位.安装时它自动选择的.下载时注意是完整安装包. SQLFULL_CHS 2008.iso大小:3.28G 已经过百度安全检测,放心下载
I.MX6 USB Camera
/************************************************************************* * I.MX6 USB Camera * 说明: ...
[原]NYOJ-大数阶乘-28
大学生程序代写 //http://acm.nyist.net/JudgeOnline/problem.php?pid=28 /*题目28题目信息运行结果本题排行讨论区大数阶乘时间限制:3000 ms ...
form+iframe实现ajax文件上传
在做文件上传时除了传入文件外,还有附件参数,并且要求不刷新页面,之前是表单提交的方式,现在修改成ajax上传的方式,由于没有选择用插件,所以用form+iframe的方式,并且这种方式对IE8以上及主 ...
spring IOC 注解@Required
@Required注解适用于bean属性的setter方法,使用@Required的方法必须在xml中填充,负责报错例如下面的例子中,student中的setAge和setName有@Require ...

Dropout和学习率衰减

Dropout和学习率衰减的更多相关文章

随机推荐

热门专题