一. Batch Normalization 对于深度神经网络,训练起来有时很难拟合,可以使用更先进的优化算法,例如:SGD+momentum.RMSProp.Adam等算法.另一种策略则是高改变网络的结构,使其更加容易训练.Batch Normalization就是这个思想. 为什么要做Normalization? 神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低:另外一方面,一旦每批训练数据的分布各不相同(batch梯度下降),那么网络…