深度学习面试题03：改进版梯度下降法Adagrad、RMSprop、Momentum、Adam - 相关文章

【深度学习面试题03：改进版梯度下降法Adagrad、RMSprop、Momentum、Adam】的更多相关文章

深度学习面试题03：改进版梯度下降法Adagrad、RMSprop、Momentum、Adam

目录 Adagrad法 RMSprop法 Momentum法 Adam法参考资料发展历史标准梯度下降法的缺陷如果学习率选的不恰当会出现以上情况因此有一些自动调学习率的方法.一般来说,随着迭代次数的增加,学习率应该越来越小,因为迭代次数增加后,得到的解应该比较靠近最优解,所以要缩小步长η,那么有什么公式吗?比如:,但是这样做后,所有参数更新时仍都采用同一个学习率,即学习率不能适应所有的参数更新. 解决方案是:给不同的参数不同的学习率 Adagrad法假设N元函数f(x),针对一个自变量…

ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法

所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集,比如原来有500W个样本,将其划分为5000个baby batch,每个子集中有1000个样本,然后每次对一个mini-batch进行梯度下降 mini-batch大小 = m: 极限情况下,当mini-batch的单个子集样本数量和原集合大小一致都为m时,也就是说对原样本只划分一个子集,这意味着没有划分,此时的梯度下降法为原始的Batch梯度下降 batch方法意味着每次迭代对大量的数据进行处理,这意味着在进行深度神经网…

深度学习面试题29：GoogLeNet(Inception V3)

目录使用非对称卷积分解大filters 重新设计pooling层辅助构造器使用标签平滑参考资料在<深度学习面试题20:GoogLeNet(Inception V1)>和<深度学习面试题26:GoogLeNet(Inception V2)>中对前两个Inception版本做了介绍,下面主要阐述V3版本的创新点使用非对称卷积分解大filters InceptionV3中在网络较深的位置使用了非对称卷积,他的好处是在不降低模型效果的前提下,缩减模型的参数规模,在<深度学…

深度学习面试题27：非对称卷积(Asymmetric Convolutions)

目录产生背景举例参考资料产生背景之前在深度学习面试题16:小卷积核级联卷积VS大卷积核卷积中介绍过小卷积核的三个优势: ①整合了三个非线性激活层,代替单一非线性激活层,增加了判别能力. ②减少了网络参数. ③减少了计算量在<Rethinking the Inception Architecture for Computer Vision>中作者还想把小卷积核继续拆解,从而进一步增强前面的优势返回目录举例一个3*3的卷积可以拆解为:一个3*1的卷积再串联一个1*3的卷积,实验证…

深度学习面试题13：AlexNet(1000类图像分类)

目录网络结构两大创新点参考资料第一个典型的CNN是LeNet5网络结构,但是第一个引起大家注意的网络却是AlexNet,Alex Krizhevsky其实是Hinton的学生,这个团队领导者是Hinton,于2012年发表论文. AlexNet有60 million个参数和65000个神经元,五层卷积,三层全连接网络,最终的输出层是1000通道的softmax.AlexNet利用了两块GPU进行计算,大大提高了运算效率,并且在ILSVRC-2012竞赛中获得了top-5测试的15.3%…

[源码解析] 深度学习流水线并行GPipe (2) ----- 梯度累积

[源码解析] 深度学习流水线并行GPipe (2) ----- 梯度累积目录 [源码解析] 深度学习流水线并行GPipe (2) ----- 梯度累积 0x00 摘要 0x01 概述 1.1 前文回顾 0x02 基本概念 2.1 背景知识 2.2 产生原因 2.3 本质 2.4 VS 数据并行 2.5 解决问题 0x03 PyTorch 梯度累积 3.1 自动累积 3.2 代码示例 3.3 DistributedDataParallel 的梯度累积 3.3.1 单卡模型梯度累计 3.3.2 D…

深度学习笔记之【随机梯度下降（SGD）】

随机梯度下降几乎所有的深度学习算法都用到了一个非常重要的算法:随机梯度下降(stochastic gradient descent,SGD) 随机梯度下降是梯度下降算法的一个扩展机器学习中一个反复出现的问题: 好的泛化需要大的训练集,但是大的训练集的计算代价也更大机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和. 训练数据的负条件对数似然函数可以写成: \[ J(\theta)=E_{x,y}L(x,y,\theta)=\frac1m\sum_{i=1}^{m}L(x^{…

深度学习面试题21：批量归一化(Batch Normalization,BN)

目录 BN的由来 BN的作用 BN的操作阶段 BN的操作流程 BN可以防止梯度消失吗为什么归一化后还要放缩和平移 BN在GoogLeNet中的应用参考资料 BN的由来 BN是由Google于2015年提出,论文是<Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift>,这是一个深度神经网络训练的技巧,主要是让数据的分布变得一致,从而使得训练深层网络模型更加容易…

深度学习面试题20：GoogLeNet(Inception V1)

目录简介网络结构对应代码网络说明参考资料简介 2014年,GoogLeNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄,GoogLeNet获得了第一名.VGG获得了第二名,这两类模型结构的共同特点是层次更深了.VGG继承了LeNet以及AlexNet的一些框架结构,而GoogLeNet则做了更加大胆的网络结构尝试,虽然深度只有22层,但大小却比AlexNet和VGG小很多,GoogleNet参数为500万个,AlexNet参数个数是GoogleNet的12倍,VG…

深度学习面试题05：激活函数sigmod、tanh、ReLU、LeakyRelu、Relu6

目录为什么要用激活函数 sigmod tanh ReLU LeakyReLU ReLU6 参考资料为什么要用激活函数在神经网络中,如果不对上一层结点的输出做非线性转换的话,再深的网络也是线性模型,只能把输入线性组合再输出(如下图),不能学习到复杂的映射关系,因此需要使用激活函数这个非线性函数做转换. 返回目录 sigmod Sigmod激活函数和导函数分别为对应的图像分别为: 对应代码为: Sigmod(x)的缺点: ①输出范围在0~1之间,均值为0.5,需要做数据偏移,不方便…