Parameter Initializations in Deep Learning

全零初始化的问题：

在Linear Regression中，常用的参数初始化方式是全零，因为在做Gradient Descent的时候，各个参数会在输入的各个分量维度上各自更新。更新公式为：

而在Neural Network（Deep Learning）中，当我们将所有的parameters做全零初始化，根据公式：

可知，每一层的Z^l均为0，如果使用sigmoid activation，则a^l的值都等于0.5。在反向传播时，误差值

因为有ω在里面，所以导致δ都变成了零，而我们用于做Gradient Descent的梯度

也就通通变为了零，从而，我们的Back propagation算法失效，参数矩阵将始终保持全零的状态，无法更新。

Parameter初始化过小的问题：

首先，Parameter过小，则经过一层层的Sigmoid Function，activation会越来越小，也就是最终的输出结果会非常接近于0。从Sigmoid的图形可以看出，在接近0的图形范围内，函数是类似线性的。所以Parameter初始化过小，会导致神经网络失去非线性功能。此外，在接近0点的部分，Sigmoid Activation的δ'(z)接近于1/4。同样地，在公式中：

随着Backpropagation的进行，δ指数级衰减。下式中的梯度会随着层数的回溯，越来越小，直至消失消失。

Parameter初始化过大的问题：

将导致Z值过大，从Sigmoid和Tanh图形可知，当Z值过大时，激励函数会饱和，其梯度将趋近为0。导致的结果是，参数将无法进行更新，或更新很慢。

而如果我们通过调整bias，使得各层的z始终为0，则会有梯度爆炸的问题。还是在下式中

各层的δ‘(z)都是1/4，但ω却是很大的值。所以随着Backpropagation的推进，前层的δ会越来越大，如果层数很多，甚至变为NAN。

深度学习中的主流初始化方法有Xavier和He

Xavier Initialization有三种选择,Fan_in:

Fan_out:

Average:

He Initialization:

Parameter Initializations in Deep Learning的更多相关文章

Decision Boundaries for Deep Learning and other Machine Learning classifiers
Decision Boundaries for Deep Learning and other Machine Learning classifiers H2O, one of the leading ...
Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy
边缘智能:按需深度学习模型和设备边缘协同的共同推理本文为SIGCOMM 2018 Workshop (Mobile Edge Communications, MECOMM)论文. 笔者翻译了该论文. ...
A Brief Overview of Deep Learning
A Brief Overview of Deep Learning (This is a guest post by Ilya Sutskever on the intuition behind de ...
Rolling in the Deep (Learning)
Rolling in the Deep (Learning) Deep Learning has been getting a lot of press lately, and is one of t ...
深度学习Deep learning
In the last chapter we learned that deep neural networks are often much harder to train than shallow ...
Deep learning：五十一(CNN的反向求导及练习)
前言: CNN作为DL中最成功的模型之一,有必要对其更进一步研究它.虽然在前面的博文Stacked CNN简单介绍中有大概介绍过CNN的使用,不过那是有个前提的:CNN中的参数必须已提前学习好.而本文 ...
Deep Learning 19_深度学习UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大学深度学习教程）
理论知识:Optimization: Stochastic Gradient Descent和Convolutional Neural Network CNN卷积神经网络推导和实现.Deep lear ...
Deep Learning in a Nutshell: History and Training
Deep Learning in a Nutshell: History and Training This series of blog posts aims to provide an intui ...
Deep Learning 13_深度学习UFLDL教程：Independent Component Analysis_Exercise（斯坦福大学深度学习教程）
前言理论知识:UFLDL教程.Deep learning:三十三(ICA模型).Deep learning:三十九(ICA模型练习) 实验环境:win7, matlab2015b,16G内存,2T机 ...

随机推荐

配置sde使可以使用sde sql（ST_Geometry）操作空间数据
用处:进行此配置后,可以用sql语言,与sde空间数据库进行空间查询,增删改图层的要素等 PS:同时也是解决 ORA-28595Extproc 代理 DLL 路径无效的方法 ORA-06512: 在 ...
开发chrome插件(扩展)
官方文档 https://developer.chrome.com/extensions/getstarted.html [干货]Chrome插件(扩展)开发全攻略 http://blog.haoji ...
C# Lodop与C-Lopdop选择打印机
原文:https://www.cnblogs.com/huaxie/p/9766886.html https://www.cnblogs.com/huaxie/p/10857490.html http ...
SQL中的like '%%‘查询
一,我们正常使用like时,这是有两个条件的模糊查询 select *From Test where UserName like '%m%' and UserName like '%a%' 二,但这时 ...
basename函数不能获取url路径中文文件名的问题
basename basename() 函数返回路径中的文件名部分. 语法 basename(path,suffix) 参数描述 path 必需.规定要检查的路径. suffix 可选.规定文件扩展 ...
菜鸟程序员成长史 --记 Github 1000+ contributions
其实一直以来想写一篇文章总结这几年的技术学习,刚好趁着自己的第一次github contribution 达到1000+,写篇文章总结以下.本文篇幅较长,我会分为几个章节来分别阐述. 博客篇为什么我 ...
jQuery的加法运算,val()获取的结果相加变成了字符串连接。
加法运算 ?想必大家听到这都会不屑了,加法运算这是多么简单的运算.然而有的时候在jQuery也让人挺头疼的. 常规的是: var num1 = 123; var num2=123; var total ...
Spring_搭建过程中遇到的问题
先看一下问题: 1.在web.xml中配置Spring 加载Spring mvc的时候配置如下:  <servlet> < ...
python基础--匿名函数
def calc(x): return x+1 a=calc(10) print(calc) print(lambda x:x+1)#lambda函数的内存地址,利用函数名可以作为值传递给变量 b=l ...
luogu2046 海拔
题目链接[NOI2010]海拔首先有个性质就是海拔只会有\(0\)和\(1\)两种. 证明:海拔下降和人数乘积为总消耗,确定了海拔下降总数,如果有个地方可以使得单位消耗最小,那么全部消耗不会更劣. ...

Parameter Initializations in Deep Learning

Parameter Initializations in Deep Learning的更多相关文章

随机推荐

热门专题