深度学习模型训练的过程本质是对weight（即参数W）进行更新，这需要每个参数有相应的初始值。

有人可能会说：“参数初始化有什么难点？直接将所有weight初始化为0或者初始化为随机数！” 对一些简单的机器学习模型，或当optimization function是convex function时，这些简单的方法确实有效。

然而对于深度学习而言，非线性函数被疯狂叠加，这便是一个非凸函数，如何选择参数初始值便成为一个值得探讨的问题。

研究的目的是：选择更适合的初始化方法，使得目标函数更容易被优化。

初始化为0

如果所有参数都被初始化为0，那么所有神经元的输出将是相同的，反向传播时每一层内所有的神经元的梯度也是相同的，这显然是一个不可行的方案。

预训练

pre-training是早期训练神经网络的有效初始化方法。第一步，将神经网络的每一层取出来，构建auto-encoder做训练，使得输入层和输出层保持一致。在这个过程中参数得到更新，形成初始值；第二步，将每一层放回神经网络中，使用训练数据fine-tuning网络。

随着数据量的增加以及activation function的发展，这种方案已很少采用，大家直接奔着训练的主题去了。现在我们往往是拿任务A(imagenet竞赛)中训练好的模型(可称为pre-training model)，将其放在任务B上做fine-tuning。

random initialization

随机初始化，是最容易想到的方案。但是一旦随机分布选择不当，会导致网络优化陷入困境。

data = tf.constant(np.random.randn(2000, 800))

layer_sizes = [800 - 50 * i for i in range(0,10)]

num_layers = len(layer_sizes)

fcs = []  # To store fully connected layers' output

for i in range(0, num_layers - 1):

    X = data if i == 0 else fcs[i - 1]

    node_in = layer_sizes[i]

    node_out = layer_sizes[i + 1]

    W = tf.Variable(np.random.randn(node_in, node_out)) * 0.01

    fc = tf.matmul(X, W)

    fc = tf.nn.tanh(fc)

    fcs.append(fc)

这里我们创建了一个10层的神经网络，非线性变换为tanh，每一层的参数都是随机正态分布，均值为0，标准差为0.01。每一层输出值分布的直方图：

随着层数的增加，网络输出迅速向0靠拢。在反向传播中，根据链式法则，梯度等于当前输入x(上一层的输出)乘以后一层的梯度，x趋向于0，意味着梯度将很小，参数更新缓慢。

调整初始化策略，增加方差：

W = tf.Variable(np.random.randn(node_in, node_out))

均值仍然为0，标准差现在变为1，此时每一层输出值分布的直方图：

此时，所有值会集中到-1或1附近，神经元饱和saturated了，也就是说tanh在-1和1附近的gradient都接近0，参数亦难更新。

Xavier initialization

泽维尔初始化的基本思想是：保持输入和输出的方差一致。注意：Xavier推到过程是基于线性函数的，但是它在非线性的神经元中依然表现不错。

W = tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in)

输出值在很多层之后依然保持着良好的分布，这很有利于我们优化神经网络！之前谈到Xavier是在线性函数上推导得出，这说明它对非线性函数并不具有普适性，所以这个例子仅仅说明它对tanh很有效，那么对于目前最常用的ReLU神经元呢?

W = tf.Variable(np.random.randn(node_in, node_out)) / np.sqrt(node_in)

...

fc = tf.nn.relu(fc)

前面看起来还不错，但是后面的趋势却是越来越接近0。幸运的是，He initialization可以用来解决ReLU初始化的问题。

He initialization

He initialization的思想是：在ReLU网络中，假定每一层有一半的神经元被激活，另一半为0，所以，要保持variance不变，只需要在Xavier的基础上再除以2。

W = tf.Variable(np.random.randn(node_in,node_out)) / np.sqrt(node_in/2)

...

fc = tf.nn.relu(fc)

效果得到了很大改善。

Batch Normalization Layer

BN是一种巧妙又粗暴的方法，可以来削弱bad initialization的影响。在网络传播中，我们想要的是在非线性activation之前，输出值应该有较好的分布（如高斯分布），以便于反向传播时计算梯度。BN的做法就是将输出值强制做一次高斯归一化和线性变换。BN的知识可以参考LRN和Batch Norm

随机初始化，有Batch Normalization：

W = tf.Variable(np.random.randn(node_in, node_out)) * 0.01

...

fc = tf.contrib.layers.batch_norm(fc, center=True, scale=True, is_training=True)

fc = tf.nn.relu(fc)

很容易看到，Batch Normalization的效果非常好。

参考

Xavier initialization是由Xavier Glorot et al.在2010年提出，He initialization是由Kaiming He et al.在2015年提出，Batch Normalization是由Sergey Ioffe et al.在2015年提出。

进一步聊聊weight initialization的更多相关文章

[深度学习] 权重初始化--Weight Initialization
深度学习中的weight initialization对模型收敛速度和模型质量有重要影响! 在ReLU activation function中推荐使用Xavier Initialization的变种 ...
(转载）深度学习的weight initialization
本文转自:谷歌工程师:聊一聊深度学习的weight initialization TLDR (or the take-away) Weight Initialization matters!!! 深度 ...
[CS231n-CNN] Training Neural Networks Part 1 : activation functions, weight initialization, gradient flow, batch normalization | babysitting the learning process, hyperparameter optimization
课程主页:http://cs231n.stanford.edu/ Introduction to neural networks -Training Neural Network ________ ...
深度学习 weight initialization
转自: https://www.leiphone.com/news/201703/3qMp45aQtbxTdzmK.htmla https://blog.csdn.net/shuzfan/articl ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week1, Assignment(Initialization)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. Initialization Welcome to the first assignment of "Improving D ...
（原）torch的训练过程
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/6221622.html 参考网址: http://ju.outofmemory.cn/entry/284 ...
[Hinton] Neural Networks for Machine Learning - Converage
Link: Neural Networks for Machine Learning - 多伦多大学 Link: Hinton的CSC321课程笔记 Ref: 神经网络训练中的Tricks之高效BP ...
Understanding the Effective Receptive Field in Deep Convolutional Neural Networks
Understanding the Effective Receptive Field in Deep Convolutional Neural Networks 理解深度卷积神经网络中的有效感受野 ...
Convolutional Neural Networks for Visual Recognition 5
Setting up the data and the model 前面我们介绍了一个神经元的模型,通过一个激励函数将高维的输入域权值的点积转化为一个单一的输出,而神经网络就是将神经元排列到每一层,形 ...

随机推荐

react组件通信那些事儿
父组件是调用组件的组件.现在看来,感觉父组件就是一个壳子,定义好壳子里面会有什么,而子组件是一个具体的实现,说明,会用到什么东西,如果有这些东西,会进行什么操作.总之,父组件是材料,有水和泥,子组件告 ...
解决WPF导入图片不显示的问题
想在XAML中使用一张图片,得先将其添加到工程中, 方法是: 在项目中双击Resources.resx,选择图像,在添加资源的下拉菜单中选择添加现有文件,然后选择文件,添加图片进来后可以在Resour ...
BZOJ.3926.[ZJOI2015]诸神眷顾的幻想乡(广义后缀自动机)
题目链接要对多个串同时建立SAM,有两种方法: 1.将所有串拼起来,中间用分隔符隔开,插入字符正常插入即可. 2.在这些串的Trie上建SAM.实际上并不需要建Trie,还是只需要正常插入(因为本来 ...
Yahoo Programming Contest 2019.D.Ears(DP)
题目链接菜爆了啊QAQ 记起点为\(S\),终点为\(T\),走过的最靠左的点是\(L\),最靠右的点是\(R\). 那么坐标轴被分成了五段: \(0\sim L-1\):经过\(0\)次: \(L ...
2190 ACM 数学概率论的乘法和加法原则
题目:http://acm.hdu.edu.cn/showproblem.php?pid=2190 思路:明显我们要寻找边长为n和边长为n-1,n-2,n-3·····的规律,这样得出一个递推公式就 ...
写一个简单的JQ插件(例子)
虽然现在 vue angular react 当道啊但是那 JQ还是有一席之地很多很多的小单位啊.其实还会用到我也放一个例子吧虽然我也不是很肯定有没有人写的比我更好啊但是我相信我这个还是蛮实用的 ...
ZOJ3951 : Independent Set
如果知道了树的形态,那么可以树形DP,每个时刻只需要计算必选根的独立集个数以及必不选根的独立集个数. 那么现在知道独立集个数,要构造出树,可以考虑DP这棵树的形态,然后将之前树形DP的值作为现在DP的 ...
暗之的锁链 [COGS2434] [树上差分]
Description 无向图中有N个节点和两类边,一类边被称为主要边,而另一类被称为附加边.Dark有N – 1条主要边,并且Dark的任意两个节点之间都存在一条只由主要边构成的路径.另外,Dark ...
Ruby语法基础(三)
Ruby语法基础(三) 在前面快速入之后,这次加深对基本概念的理解. 字符串 Ruby字符串可以分为单引号字符串和双引号字符串,单引号字符串效率更高,但双引号的支持转义和运行 puts '单引 ...
JS_高程5.引用类型（5）Array类型的操作方法
一.操作方法 1.concat()方法基于当前数组中的所有项创建一个新数组.具体说,是先创建当前数组的一个副本,然后将接收到的参数添加到这个副本的末尾,最后返回新构建的数组.在没有给concat() ...

进一步聊聊weight initialization