好久没有更新blog了,最近抽时间看了Nielsen的<Neural Networks and Deep Learning>感觉小有收获,分享给大家. 了解深度学习的同学可能知道,目前深度学习面临的一个问题就是在网络训练的过程中存在梯度消失问题(vanishing gradient problem),或者更广义地来讲就是不稳定梯度问题.那么到底什么是梯度消失呢?这个问题又是如何导致的呢?这就是本文要分享的内容. 1. 消失的梯度 首先,我们将一个网络在初始化之后在训练初期的结果可视化如下: 在…