【dlbook】优化

【神经网络优化的挑战】

一、病态：

　　虽然学习率很小，而且梯度大，但是由于Hessian阵的病态，二次项比一次项还要大，梯度下降事实上并不一定能下降，反而有可能上升。因此需要将学习率调低。

　　表现：梯度很强，但是学习很缓慢，因为曲率太强

二、局部最小值：

　　由于权重空间对称性，神经网络有很多局部极小值。

　　是否存在大量代价高的局部极小值，优化算法是否会碰到，都尚未解决。

　　梯度范数是否能收缩到一个微小的值。

三、鞍点：

　　鞍点是更加现实的问题！局部最小值是全正，鞍点是有正有负。

　　牛顿法会陷入鞍点，二阶算法通常难以扩大到大型神经网络。

四、悬崖和梯度爆炸：

　　常见于循环神经网络，

　　斜率较大区域，由于几个较大的权重相乘。使得导数巨大，梯度下降会使参数弹射的非常远，之前的优化就成为无用功。

五、梯度爆炸和梯度消失：

　　常见于循环神经网络或者很深的神经网络。

　　如果一个矩阵经过多次相乘运算，而其特征值 > 1。最终特征值会趋于无穷，表现出悬崖的特征，即梯度爆炸。如果特征值小于1，会趋于0，显示为梯度消失，不知道向哪个方向移动。

　　比较好的方式是记录每个梯度值！

六、非精确梯度

　　梯度估计是一个常见的问题，需要基于采样来估计，采样通常有噪声。

七、局部与全局弱对应

　　没有全局的优化算法。

　　主要是在低维度的时候会达不到局部最优。

　　高维度能够达到，但是路径可能会比较长。

【基本算法】

SGD：

　　lr需要逐步衰减，一般使用的是线性衰减，

动量：

　　v = alpha v - epsilon 梯度

　　theta = theta + v

　　解决问题1：Hessian矩阵的病态条件

　　解决问题2：随机梯度的方差

　　实践中，动量alpha的取值一般为 0.5 , 0.9 , 0.99，应当随着时间变大。但是扩大动量alpha 没有收缩学习率 epsilon重要。

Nesterov动量

　　梯度计算时使用参数为 theta + alpha v，也就是提前计算动量的梯度

　　在批量梯度下降（使用所有样本更新）的表现比动量算法好，但是在随机梯度的情况下并没有改善收敛率

【参数初始化】

权重初始化

需要在不同单元之间破坏对称性、如果连接相同的输入，必须有不同的初始参数。

一般是高斯或者均匀分布，这两种似乎没有很大差别，但没有研究证实。

初始权重方差是重要的。更大的权重可以更好的破坏对称性，避免冗余单元，更好传播信息，但是容易在前向或者反向传播中产生爆炸的值。

优化希望初始权重大，更好的传播信息，正则化希望初始权重更小，

如果计算资源允许，可以将初始数据范围设置为超参数。

偏置初始化

通常可以简单设置为0，以下是例外：

1、偏置作为输出单元，

2、避免初始化引起太大饱和，例如ReLU不设置为0而是0.1

3、一个单元控制其他单元能否参与等式，

【自适应学习率算法】

Adagrad

　　不同模型参数具有不同的学习率！

　　缺陷：从训练开始进行累积会导致学习率过早过量减小，更多适用于凸优化！

RMSProp

　　相比较Adagrad，在非凸设定下效果更好，从梯度累积转变为指数加权的移动平均。

　　实现指数加权的方式是与动量相近，动量的值一般设成

　　有效且使用，是经常采用的优化方法。

Adam

　　一阶矩和二阶矩综合使用，对超参数的选择相当鲁棒，但是需要修改一下建议的学习率。

【二阶算法】

待续

【dlbook】优化的更多相关文章

关于DOM的操作以及性能优化问题-重绘重排
写在前面: 大家都知道DOM的操作很昂贵. 然后贵在什么地方呢? 一.访问DOM元素二.修改DOM引起的重绘重排一.访问DOM 像书上的比喻:把DOM和JavaScript(这里指ECMScri ...
In-Memory：内存优化表的事务处理
内存优化表(Memory-Optimized Table,简称MOT)使用乐观策略(optimistic approach)实现事务的并发控制,在读取MOT时,使用多行版本化(Multi-Row ve ...
试试SQLSERVER2014的内存优化表
试试SQLSERVER2014的内存优化表 SQL Server 2014中的内存引擎(代号为Hekaton)将OLTP提升到了新的高度. 现在,存储引擎已整合进当前的数据库管理系统,而使用先进内存技 ...
01.SQLServer性能优化之----强大的文件组----分盘存储
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 文章内容皆自己的理解,如有不足之处欢迎指正~谢谢前天有学弟问逆天:“逆天,有没有一种方 ...
03.SQLServer性能优化之---存储优化系列
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 概述:http://www.cnblogs.com/dunitian/p/60413 ...
前端网络、JavaScript优化以及开发小技巧
一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN ...
数据库优化案例——————某市中心医院HIS系统
记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也开始分享自己做的优化案例. 最近一直很忙,博客产出也少的 ...
【前端性能】高性能滚动 scroll 及页面渲染优化
最近在研究页面渲染及web动画的性能问题,以及拜读<CSS SECRET>(CSS揭秘)这本大作. 本文主要想谈谈页面优化之滚动优化. 主要内容包括了为何需要优化滚动事件,滚动与页面渲染的 ...
Web性能优化：What? Why? How?
为什么要提升web性能? Web性能黄金准则:只有10%~20%的最终用户响应时间花在了下载html文档上,其余的80%~90%时间花在了下载页面组件上. web性能对于用户体验有及其重要的影响,根据 ...

随机推荐

【分库分表】sharding-jdbc—分片策略
一.分片策略 Sharding-JDBC认为对于分片策略存有两种维度: 数据源分片策略(DatabaseShardingStrategy):数据被分配的目标数据源表分片策略(TableShardin ...
【c++ primer, 5e】函数匹配
练习 6.49 候选函数:与所调用的函数的名字相同的函数的集合. 可行函数:给候选函数加上参数数量.参数类型的约束所得到的函数的集合. 6.50 a 3.4可行,二义匹配 b 2.4可行,2是最佳匹配 ...
Laravel核心解读--异常处理
异常处理是编程中十分重要但也最容易被人忽视的语言特性,它为开发者提供了处理程序运行时错误的机制,对于程序设计来说正确的异常处理能够防止泄露程序自身细节给用户,给开发者提供完整的错误回溯堆栈,同时也能提 ...
LSTM java 实现
由于实验室事情缘故,需要将Python写的神经网络转成Java版本的,但是python中的numpy等啥包也不知道在Java里面对应的是什么工具,所以索性直接寻找一个现成可用的Java神经网络框架,于 ...
20145103JAVA第二次实验报告
实验二 Java面向对象程序设计实验内容 1.初步掌握单元测试和TDD 2.理解并掌握面向对象三要素:封装.继承.多态 3.初步掌握UML建模 4.熟悉S.O.L.I.D原则 5.了解设计模式实验 ...
20145312 《Java程序设计》第10周学习总结
20145312 <Java程序设计>第10周学习总结学习总结一. 什么是网络编程网络编程就是在两个或两个以上的设备(例如计算机)之间传输数据.程序员所作的事情就是把数据发送到指定的 ...
T-shirt again
T-shirt again 标签(空格分隔): 软工实践第一次获得小黄裳是在大一下的C++课上,见T-shirt 0.0... 这次在软工课上能再次获得小黄裳,是我没有想到的,个人觉得里面有蛮多的运 ...
xml简单介绍及libmxml编程
今天我们来简单介绍一下,关于xml的一些内容,包括自己编写一些程序进行生成和解析. 首先我们我们还是从xml的演化历史来了解一下它吧. 历史演化 GML: 在20世纪60年代为了促进数据交换和操作,通 ...
zabbix分布式监控系统安装配置
zabbix简介: zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案. zabbix能监视各种网络参数,保证服务器系统的安全运营:并提供灵 ...
Zookeeper之基于Observer部署架构
Observers:在不伤害写性能的情况下扩展Zookeeper 虽然通过Client直接连接到Zookeeper集群的性能已经很好了,可是这样的架构假设要承受超大规模的Client,就必须添加Zoo ...

【dlbook】优化

【dlbook】优化的更多相关文章

随机推荐

热门专题