Parameter Initializations in Deep Learning

全零初始化的问题：

在Linear Regression中，常用的参数初始化方式是全零，因为在做Gradient Descent的时候，各个参数会在输入的各个分量维度上各自更新。更新公式为：

而在Neural Network（Deep Learning）中，当我们将所有的parameters做全零初始化，根据公式：

可知，每一层的Z^l均为0，如果使用sigmoid activation，则a^l的值都等于0.5。在反向传播时，误差值

因为有ω在里面，所以导致δ都变成了零，而我们用于做Gradient Descent的梯度

也就通通变为了零，从而，我们的Back propagation算法失效，参数矩阵将始终保持全零的状态，无法更新。

Parameter初始化过小的问题：

首先，Parameter过小，则经过一层层的Sigmoid Function，activation会越来越小，也就是最终的输出结果会非常接近于0。从Sigmoid的图形可以看出，在接近0的图形范围内，函数是类似线性的。所以Parameter初始化过小，会导致神经网络失去非线性功能。此外，在接近0点的部分，Sigmoid Activation的δ'(z)接近于1/4。同样地，在公式中：

随着Backpropagation的进行，δ指数级衰减。下式中的梯度会随着层数的回溯，越来越小，直至消失消失。

Parameter初始化过大的问题：

将导致Z值过大，从Sigmoid和Tanh图形可知，当Z值过大时，激励函数会饱和，其梯度将趋近为0。导致的结果是，参数将无法进行更新，或更新很慢。

而如果我们通过调整bias，使得各层的z始终为0，则会有梯度爆炸的问题。还是在下式中

各层的δ‘(z)都是1/4，但ω却是很大的值。所以随着Backpropagation的推进，前层的δ会越来越大，如果层数很多，甚至变为NAN。

深度学习中的主流初始化方法有Xavier和He

Xavier Initialization有三种选择,Fan_in:

Fan_out:

Average:

He Initialization:

Parameter Initializations in Deep Learning的更多相关文章

Decision Boundaries for Deep Learning and other Machine Learning classifiers
Decision Boundaries for Deep Learning and other Machine Learning classifiers H2O, one of the leading ...
Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy
边缘智能:按需深度学习模型和设备边缘协同的共同推理本文为SIGCOMM 2018 Workshop (Mobile Edge Communications, MECOMM)论文. 笔者翻译了该论文. ...
A Brief Overview of Deep Learning
A Brief Overview of Deep Learning (This is a guest post by Ilya Sutskever on the intuition behind de ...
Rolling in the Deep (Learning)
Rolling in the Deep (Learning) Deep Learning has been getting a lot of press lately, and is one of t ...
深度学习Deep learning
In the last chapter we learned that deep neural networks are often much harder to train than shallow ...
Deep learning：五十一(CNN的反向求导及练习)
前言: CNN作为DL中最成功的模型之一,有必要对其更进一步研究它.虽然在前面的博文Stacked CNN简单介绍中有大概介绍过CNN的使用,不过那是有个前提的:CNN中的参数必须已提前学习好.而本文 ...
Deep Learning 19_深度学习UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大学深度学习教程）
理论知识:Optimization: Stochastic Gradient Descent和Convolutional Neural Network CNN卷积神经网络推导和实现.Deep lear ...
Deep Learning in a Nutshell: History and Training
Deep Learning in a Nutshell: History and Training This series of blog posts aims to provide an intui ...
Deep Learning 13_深度学习UFLDL教程：Independent Component Analysis_Exercise（斯坦福大学深度学习教程）
前言理论知识:UFLDL教程.Deep learning:三十三(ICA模型).Deep learning:三十九(ICA模型练习) 实验环境:win7, matlab2015b,16G内存,2T机 ...

随机推荐

[Codeforces 1199D]Welfare State(线段树)
[Codeforces 1199D]Welfare State(线段树) 题面给出一个长度为n的序列,有q次操作,操作有2种 1.单点修改,把\(a_x\)修改成y 2.区间修改,把序列中值< ...
C# http post请求帮助类
using System; using System.Collections.Specialized; using System.IO; using System.Net; using System. ...
MATLAB:非线性规划fmincon
1.非线性规划的形式: 其中x是一个列向量,st中前两项为线性约束条件,后两项为非线性约束条件. 在MATLAB中fmincon是用于求解非线性多远函数的最小值的函数,这里介绍fmincon的其中一种 ...
Git 出现Branch master set up to track remote branch master问题与忽略文件上传
错误:在push 到远程仓库是一直提示下列错误,检查了使用status检查了也没有发现错误,最后排查出来是当前分支为((no branch))即右上那个id (┬＿┬)..... 原因:出现这个问题的 ...
帝国CMS 调用专题[eshowzt]标签改为灵动标签[e:loop]的方法
1.eshowzt说明及示例 [eshowzt]标签模板ID,专题类别ID,显示专题数[/eshowzt] 示例需求:将推荐专题后,显示9个指定专题原来写法: <span>[eshowz ...
Vue+elementui 实现复杂表头和动态增加列的二维表格
先上完成的效果图:列是根据查询结果增加的数据格式: 表头的数据取出: data.data.forEach(element => { this.thead.push({ 品名: element. ...
openstack stein部署手册 7. nova-compute
# 安装程序包 yum install -y openstack-nova-compute # 变更配置文件 cd /etc/nova mv nova.conf nova.conf.org cat & ...
01. Linux-Kali系统网卡配置
配置网卡操作: vim /etc/network/interfaces auto eth0iface eth0 inet static 配置eth0使用默认的静态地址address 192.168.1 ...
Nginx 的总结
目录 Nginx 的产生 Nginx 的用武之地 Web 服务器对比 Nginx 的产生 Nginx 同 Apache 一样都是一种 Web 服务器.基于 REST 架构风格,以统一资源描述符(Uni ...
spring boot generator
pom.xml 插件引用依赖 <build> <plugins> <plugin> <groupId>org.springframework.boot& ...

Parameter Initializations in Deep Learning

Parameter Initializations in Deep Learning的更多相关文章

随机推荐

热门专题