SGD中的重要参数

Learning Rate

学习率决定了权值更新的速度，设置得太大会使结果超过最优值，太小会使下降速度过慢。仅靠人为干预调整参数需要不断修改学习率，因此后面3种参数都是基于自适应的思路提出的解决方案。后面3中参数分别为：Weight Decay 权值衰减，Momentum 动量和Learning Rate Decay 学习率衰减。

$\omega_{i}\leftarrow \omega_{i} - \eta \frac{\partial E}{\partial \omega_{i}}$ $\omega_{i}\leftarrow m\cdot \omega_{i} - \eta \frac{\partial E}{\partial \omega_{i}}$

Weight decay

在实际应用中，为了避免网络的过拟合，必须对价值函数（Cost function）加入一些正则项，在SGD中加入 $\eta \lambda \omega _{i}$ 这一正则项对这个Cost
function进行规范化：

$\omega_{i}\leftarrow \omega_{i} - \eta \frac{\partial E}{\partial \omega_{i}} - \eta \lambda \omega _{i}$

上面这个公式基本思想就是减小不重要的参数对最后结果的影响，网络中有用的权重则不会收到Weight decay影响。

在机器学习或者模式识别中，会出现overfitting，而当网络逐渐overfitting时网络权值逐渐变大，因此，为了避免出现overfitting,会给误差函数添加一个惩罚项，常用的惩罚项是所有权重的平方乘以一个衰减常量之和。其用来惩罚大的权值。

Momentum

动量来源于牛顿定律，基本思想是为了找到最优加入“惯性”的影响，当误差曲面中存在平坦区域，SGD就可以更快的学习。

$\omega_{i}\leftarrow m\cdot \omega_{i} - \eta \frac{\partial E}{\partial \omega_{i}}$

Learning Rate Decay

该方法是为了提高SGD寻优能力，具体就是每次迭代的时候减少学习率的大小。

$\eta \left( s \right) =\frac{\eta _{0} }{1+s\cdot \eta _{n}}$

weight decay（权值衰减）的使用既不是为了提高收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight
decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

momentum是梯度下降法中一种常用的加速技术。对于一般的SGD，其表达式为 $x \leftarrow x-\alpha \ast dx$ , $x$ 沿负梯度方向下降。而带momentum项的SGD则写生如下形式：
$v=\beta \ast v -a\ast dx\\$
$x \leftarrow x+v$
其中 $\beta$ 即momentum系数，通俗的理解上面式子就是，如果上一次的momentum（即 $v$ ）与这一次的负梯度方向是相同的，那这次下降的幅度就会加大，所以这样做能够达到加速收敛的过程。

normalization（batch normalization）。

batch normalization的是指在神经网络中激活函数的前面，将 $wx+b$ 按照特征进行normalization，这样做的好处有三点：

提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1]，这样在反向传播时候的梯度都是在1左右，避免了梯度消失现象。
提升学习速率。归一化后的数据能够快速的达到收敛。
减少模型训练对初始化的依赖。

SGD中的重要参数的更多相关文章

如何理解javaSript中函数的参数是按值传递
本文是我基于红宝书<Javascript高级程序设计>中的第四章,4.1.3传递参数小节P70,进一步理解javaSript中函数的参数,当传递的参数是对象时的传递方式. (结合资料的个人 ...
Production环境中iptables常用参数配置
production环境中iptables常用参数配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我相信在实际生产环境中有很多运维的兄弟跟我一样,很少用到iptables的这个 ...
[原创]java WEB学习笔记109：Spring学习---spring对JDBC的支持：使用 JdbcTemplate 查询数据库，简化 JDBC 模板查询，在 JDBC 模板中使用具名参数两种实现
本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱 ...
VB类模块中属性的参数——VBA中Range对象的Value属性和Value2属性的一点区别
在VB中,属性是可以有参数的,而VBA中属性使用参数非常常见.比如最常用的:Worksheet.Range("A1:A10") VB的语法,使用参数的不一定是方法,也有可能是属性 ...
第一篇博文：PHP函数原型中的可选参数写法为什么这么写？
第一篇,算是开始吧.简单写点儿东西. 刚开始学PHP,在看PHP Manual时遇到一个问题:含可选参数的函数原型中,可选参数的写法看不懂. 例如explode函数 array explode ( s ...
Elasticsearch——禁止Body中的index覆盖Url中的index参数
本篇继续一下Elasticsearch日常使用的技巧翻译. 在Elasticsearch有很多的api支持在body中指定_index等信息,比如mget或者msearch以及bulk. 默认的情况下 ...
jax-rs中的一些参数标注简介(@PathParam,@QueryParam,@MatrixParam,@HeaderParam,@FormParam,@CookieParam)
先复习一下url的组成: scheme:[//[user:password@]host[:port]][/]path[?query][#fragment] jax-rs anotation @Path ...
C#中方法的参数的四种类型
C#中方法的参数有四种类型: 1. 值参数类型 (不加任何修饰符,是默认的类型) 2. 引用型参数 (以ref 修饰符声明) 3. 输出型参数 (以out 修 ...
Libliner 中的-s 参数选择：primal 和dual
Libliner 中的-s 参数选择:primal 和dual LIBLINEAR的优化算法主要分为两大类,即求解原问题(primal problem)和对偶问题(dual problem).求解原问 ...

随机推荐

[buaa-SE-2017]个人作业-Week2
个人作业-Week2 一.代码复审Checklist 1.概要部分 1.1 代码能符合需求和规格说明么? 本次作业的需求可以分成基本的功能实现和大规模数据下程序的健壮性,以及少量的异常处理能力,也就是 ...
OO第二阶段作业总结
第五次作业: 设计策略: 本次作业设计的基本思路是按照指导书所给的推荐方法来完成的,即共用对象为队列盘,线程有电梯.调度器.以及扫描器,扫描器将控制台输入的有效指令加入到队列盘中,调度 ...
20162314 《Program Design & Data Structures》Learning Summary Of The Seventh Week
20162314 2017-2018-1 <Program Design & Data Structures>Learning Summary Of The Seventh Wee ...
Runtime 类的使用
package com.System.Runtime; import java.io.IOException; /* RunTime 该类类主要代表了应用程序运行的环境. getRuntime() 返 ...
软工1816 · Beta冲刺（2/7）
团队信息队名:爸爸饿了组长博客:here 作业博客:here 组员情况组员1(组长):王彬过去两天完成了哪些任务完成考试确定历史记录页面与排行榜页面的前端页面风格接下来的计划 & ...
Week4-作业1：《构建之法》第四章、第十七章阅读笔记与思考
第四章两人合作这一章是讲述了两人结对编程的一些东西,包括一些代码的规范,还有结对编程的优点.怎么做.以及一些注意事项. 1.“错误处理当程序的主要功能实现后,一些程序员会乐观地估计只需要另外 ...
简单Window下 Android Studio的安装
(1)首先安装JDK 下载JDK 本人觉得官方网站下JDK比较慢,可以直接百度JDK,(如果是64位百度搜索记得+64位)
复利计算测试（C语言）
对我们和复利计算程序,写单元测试. 有哪些场景? 期待的返回值写测试程序. 运行测试. 测试模块测试输入预期结果运行结果 bug跟踪计算终值 (本金,年限,利率) 终值 1 (100 ...
BZOJ5288 HNOI/AHOI2018游戏
首先将之间没有锁的房间合并.显然可达性具有传递性和反交换律(即若a能到达b,则b不能到达a). 考虑对每个房间找到其左右第一个(即与其最接近的)能作为起点到达它的房间.如果能求出这个,对此建两棵树,问 ...
jdbc的封装（使用参数文件）
借鉴原CSDN作者yanzi1225627的一篇:http://blog.csdn.net/yanzi1225627/article/details/26950615 作者东西写的很好,自己用的时候进 ...

SGD中的重要参数

SGD中的重要参数的更多相关文章

随机推荐

热门专题