deeplearning 重要调参参数分析

reference: https://blog.csdn.net/jningwei/article/details/79243800

learning rate:学习率，控制模型的学习进度，决定权值更新的速度。也叫做步长，即反向传播算法的

学习率的设置

在训练开始时，根据迭代次数动态设置学习率。

刚开始时，学习率以0.01~0.001 为宜，一定轮数后，开始下降，在快结束时学习率的衰减应该在100倍以上。由于迁移学习，模型已在原始数据上收敛，应设置较小的学习率（<= 0.00001）,

在新数据上进行微调。

学习率缓解机制

目标函数损失值看lr

理想情况下的损失曲线应该是滑梯式的，绿线所示：

分析：红线一开始就上扬，说明初始学习率过大，从而导致震荡，应该减小学习率。

黄线初始学习率较小，loss曲线收敛缓慢，易过拟合，应增大初始学习率。

紫线初始学习率过大，导致无法过拟合，应减小学习率。

权重衰减

为了避免网络的过拟合，对cost function引入正则项，作用是减小不重要参数对最后结果的影响，有用的权重不会受到weight decay的影响。过拟合时权重值逐渐变大，在loss function增加一个惩罚项。不是为了提高收敛速度或是收敛精度，正则项指示模型的复杂度，权重衰减调节模型复杂度对损失函数的影响。

Momentum

基本思想是为了找到最优加入“惯性”的影响，当误差曲面中存在平坦区域时，SGD可以更快的学习。

Learning Rate Decay

目的是为了提高SGD的寻优化能力，每次迭代的时候减小学习率的大小。

BN的好处：BN在NeuralNetwork 的激活函数之前，将wx+b按照特征进行标准化处理。

1.Normalization可以使特征缩放至【0，1】，在反向传播时梯度在1左右，避免梯度消失。

2.提高学习速率，标准化后更快达到收敛。

3.减少模型对初始化的依赖。

batch大小的作用

batch决定梯度下降的方向。如果batch size为全体数据集，则确定的方向可以更好的代表样本总体，更加准确的朝向极值的方向。缺点是内存的限制。

如果设置为1,即为在线学习，每次修正方向都以各自样本的梯度方向修正，难以收敛。

在合理的范围内增大batch_size可以提高内存利用率，减少跑完整个数据集的所需要的迭代次数，加快了相对于相同数据量的处理速度。一般设置为8的倍数。

deeplearning 重要调参参数分析的更多相关文章

word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
xgboost的sklearn接口和原生接口参数详细说明及调参指点
from xgboost import XGBClassifier XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silen ...
XGBoost和LightGBM的参数以及调参
一.XGBoost参数解释 XGBoost的参数一共分为三类: 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression).booster参数一般可以调 ...
XGBoost 重要参数(调参使用)
XGBoost 重要参数(调参使用) 数据比赛Kaggle,天池中最常见的就是XGBoost和LightGBM. 模型是在数据比赛中尤为重要的,但是实际上,在比赛的过程中,大部分朋友在模型上花的时间却 ...
DeepMind提出新型超参数最优化方法：性能超越手动调参和贝叶斯优化
DeepMind提出新型超参数最优化方法:性能超越手动调参和贝叶斯优化 2017年11月29日 06:40:37 机器之心V 阅读数 2183 版权声明:本文为博主原创文章,遵循CC 4.0 BY ...
机器学习笔记——模型调参利器 GridSearchCV（网格搜索）参数的说明
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数.但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果.这个时候就是需要动脑筋了.数据量比较大 ...
漫谈PID——实现与调参
闲话: 作为一个控制专业的学生,说起PID,真是让我又爱又恨.甚至有时候会觉得我可能这辈子都学不会pid了,但是经过一段时间的反复琢磨,pid也不是很复杂.所以在看懂pid的基础上,写下这篇文章,方便 ...
CatBoost算法和调参
欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?co ...
GBDT调参总结
一.GBDT类库弱学习器参数二.回归数据集:已知用户的30个特征,预测用户的信用值 from sklearn.ensemble import GradientBoostingRegressor f ...

随机推荐

MatrixBG 代码瀑布的实现
黑客帝国中代码瀑布是怎么实现的呢? 我们可以通过 window.innerWidth获取屏幕的宽度W,并规定字符的大小size,那么屏幕中共有 W/size 列字符出现, 我们不断的去更改每一列中文字 ...
Django中session的基础了解
基于cookie做用户验证时:敏感信息不适合放在cookie中 session依赖cookie session原理 cookie是保存在用户浏览器端的键值对 session是保存在服务器端的键值对 s ...
FLASK-----基本知识（一）
中文文档(http://docs.jinkan.org/docs/flask/) 英文文档(http://flask.pocoo.org/docs/0.11/) FLASK介绍 Flask是一个基于P ...
2016221 Java第二周学习补充
对switch语句的理解在程序中遇到switch时,要将switch后的表达式与后续程序中的case常量进行比较,如若相等,程序将执行后面所有的case语句,直到遇到break 为止.如果走完整个程 ...
Excel自动建组
已用于测试用例自动创建组使用要求:A列的格式如:X.X.X.X.X11.11.1.11.1.1.11.1.1.1.11.1.1.21.1.21.22 会自动将1.1.1.1.1-1.1.1.1.X组 ...
Gitlab 备份迁移恢复报错gtar: .: Cannot mkdir: No such file or directory
1. 版本信息 OS: centos 6.9 Gitlab: gitlab-ce.10.7.4 gitlab-ce.10.8.0 gitlab-ce.10.8.3 gitlab-ce.10.8.4 2 ...
Python3学习笔记05-数字
Python 数字数据类型用于存储数值数字类型不能修改,如果改变数字数据类型的值,将重新分配内存空间以下实例在变量赋值时 Number 对象将被创建: var1 = 10 var2 = 20 也可 ...
C++ 三/五法则
当定义一个类时,我们显式地或隐式地指定了此类型的对象在拷贝.赋值和销毁时做什么.一个类通过定义三种特殊的成员函数来控制这些操作:拷贝构造函数.拷贝赋值运算符和析构函数. 拷贝构造函数定义了当用同类型的 ...
hibernate框架学习之数据查询（HQL）
lHibernate共提供5种查询方式 •OID数据查询方式 •HQL数据查询方式 •QBC数据查询方式 •本地SQL查询方式 •OGN数据查询方式 OID数据查询方式 l前提:已经获取到了对象的OI ...
BZOJ 3620：似乎在梦中见过的样子
似乎在梦中见过的样子.... 一道水题调了这么久,还半天想不出来怎么 T 的...佩服自己(果然蒟蒻) 这题想想 KMP 但是半天没思路瞟了一眼题解发现暴力枚举起始点,然后 KMP 如图: O( n2 ...

deeplearning 重要调参参数分析

deeplearning 重要调参参数分析的更多相关文章

随机推荐

热门专题