斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13
课时12 神经网络训练细节part2(上)
训练神经网络是由四步过程组成,你有一个完整的数据集图像和标签,从数据集中取出一小批样本,我们通过网络做前向传播得到损失,告诉我们目前分类效果怎么样。然后我们反向传播来得到每一个权重的梯度,这个梯度告诉我们如何去调整每一个权重,最终我们能够更好的分类图片。
为什么要使用激活函数?
如果在整个的神经网络中不使用激活函数,你的网络的分类能力基本等同于一个线性分类器,所以激活函数是相当关键的。他提供了所有的方法,你可以他用来存储数据
BN使得网络的训练更加健壮。
参数更新
补救SGD垂直进展快的方法,使用动量更新,他可以理解为一个球滚动着接近中间,在这个情况下的梯度可以视作一种动力,物理学中的这种力量,就相当于加速度,而mu倍的v相当于摩擦力。
v初始化为0,其实没什么影响

学习速率是应用到所有方向上的
Nesterov动量更新

我们直接达到这个目的,然后计算梯度。

我们进行了重新整理

虽然有很多局部最小值,但是他们的损失其实是差不多的。当你扩大神经网络的规模时候,你的最坏和最好局部最小值之间的差别随着时间的推移会越来越小。有研究表明,基本上也就不存在坏的局部最小值了,当然这也只在很小的网络中出现。事实上,你用不同的值初始化,你会得到相同的结果和损失,所以,基本上不存在不好的局部最小值。
AdaGrad更新

由凸优化理论发展而来的,然后被移植到了神经网络中,他的实现和一些基本的随机梯度下降的形式是一样的,我们用附加变量来放缩梯度,我们在不停地增加这一附加变量。这里的cache在这里由梯度的平方和构成,他一定是正数。变量cache是一个联合矢量,他和你的主向量是一样大的,因此cache在每一个维度计算其相应的梯度的平方和,我们有时称他为第二moment,我们将这些cache构造起来,然后逐项用这一函数除以cache的平方,这就是人们称他为每个参数自适应学习速率的方法的原因。因为参数空间的每一维,都有自己的学习速率,他会根据梯度的规模大小而动态的变化。le-7是一个平滑因子,一个超参数,防止除数变为0
问题:我们长时间训练,不断有正数加到分母的cache变量中,更新步长就会逐渐衰减到0,最后完全停止学习

改进:其主要思想是不再是在每一维度计算平方和而是变成一个泄漏的变量,最后我们利用衰减率这个超参数
Adam更新

一个动量m表示的是梯度的一阶矩,把他用指数和展开的形式表示。adagrad记录的是梯度的二阶矩,并按指数和形式表示,然后就得到Adam的更新了。可以从另一个角度来理解他,通过小批量抽样处理,在前向传播中你会得到很多随机值,你会得到这些带有噪声的梯度。所以相比于在每一步都用各自梯度值运算,我们实际上是利用前面几个梯度的衰减和,这样能稳定梯度方向,这就是动量的作用。放缩的作用是确保梯度大和梯度小的方向步长相关。
课时13 神经网络训练细节part2(下)
集成模型
小技巧:例如,当你在训练神经网络时设置一些检查点,通常是每个时期建立一个,对每个检查点都去验证这在验证集中的表现。这说明了你可以在模型中设置不同的检查点,然后在处理集合中使用他们,这被证明能够使得结果有所改善。
随机失活
在你进行神经网络前向传播的时候,你要随机的把一些神经元置零。计算每个隐藏层的激活函数,然后随机挑选出一半神经元失活。在反向传播中也要进行随机失活
意义:可以防止过拟合,因为如果我们只用网络的一半的话,他的表达能力就小了很多,我们每次只用一半网络的话,我们就能相对减少在训练中涉及到的变量数(从而减少过拟合的概率)
另一种解释是随机失活可以被视为训练一个由很多小模型集成而成的大模型。每一个子网络都是原来大网络的一个子网络,但是原网络和子网络之间并不能很好的分享参数。我们在前向传播的时候,随机失活一些,在反向传播过程中,我们也要经过这些掩模。在这时,只有那些在前向传播过程中,我们用到的没有失活的神经元的参数或者说经过这些神经元的梯度才会被更新。所以,在随机失活这个过程中,其实只是训练了一个在某一次取样中,选择的原网络的一部分。换句话说,每一个二进制掩模(随机失活后的网络)都是一个新模型,他只会被一个数据训练一次。
当你失活一个神经元的时候,他的权值也就不更新了,如果我们取样了网络的一部分,我们只会用一个数据点来训练这个子网络(因为每次循环中都有新的子网络)。每次我们都会用网络不同的部分来训练,但是他们之间都会有相同的参数(两次取样没有失活的部分),也就是说在多次循环中我们会用相同的数据点来训练不同的有共同参数的模型,这就是随机失活大概的意思。
如果想要更强的正则化,则可以失活更多的神经元。
斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13的更多相关文章
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时3
课时3 计算机视觉历史回顾与介绍下 ImageNet有5000万张图片,全部都是人工清洗过得,标注了超过2万个分类. CS231n将聚焦于视觉识别问题,图像分类关注的是大图整体:物体检测告诉你东西具体 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时1
课时1 计算机视觉历史回顾与介绍上 CS231n:这一一门关于计算机视觉的课程,基于一种专用的模型架构,叫做神经网络(更细一点说,是卷积神经网络CNN).计算机视觉是人工智能领域中发展最为迅猛的一个分 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时26&&27
课时26 图像分割与注意力模型(上) 语义分割:我们有输入图像和固定的几个图像分类,任务是我们想要输入一个图像,然后我们要标记每个像素所属的标签为固定数据类中的一个 使用卷积神经,网络为每个小区块进行 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时24&&25
课时24 深度学习开源库使用介绍(上) Caffe 被用于重新实现AlexNet,然后用AlexNet的特征来解决其他事情 用C++书写的,可以去GitHub上面读取源代码 主要四个类: Blob可以 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时8&&9
课时8 反向传播与神经网络初步(上) 反向传播在运算连路中,这是一种通过链式法则来进行递推的计算过程,这个链路中的每一个中间变量都会对最终的损失函数产生影响. 链式法则通常包含两部分,局部梯度和后一层 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时11
课时11 神经网络训练细节part1(下) 2010年,Glorot等人写的论文,我们称之为Xavier初始化,他们关注了神经元的方差表达式.他们推荐一种初始化方式,那就是对每个神经元的输入进行开根号 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时10
课时10 神经网络训练细节part1(上) 没有大量的数据也不会有太多影响,只需要找一个经过预训练的卷积神经网络然后进行调整 从数据集中抽样一小批数据, 将数据运入卷积神经网络中来计算损失值 通过反向 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时7
课时7 线性分类器损失函数与最优化(下) 我们为什么要最大化对数概率而非直接最大化概率? 你在做逻辑斯蒂回归时,如果你只是想要最大化概率,那你使用log是无意义的.因为log函数是单调函数,最大化概率 ...
- 斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时14&&15
课时14 卷积神经网络详解(上) CNN处理的是一些数据块,在这之间有很多层,一系列的层将输入数据变换为输出数据,所以完成操作的中间量不仅是NN时候讲的那些向量,而是立体结构,有宽,高和深度,在整个计 ...
随机推荐
- Unity3d插件]EasyTouch简单使用方法
EasyTouch使用 EasyTouch 文件夹[-] 一.效果图 二.操作步骤 1.官方文档上的步骤 2.翻译一下以上的步骤 3.依据官方的这些提示.自己来做一个属于自己的人物遥感控制 对于移动平 ...
- libxml/HTMLparser.h file not found
在导入asihttprequest包时出问题导入了libxml2.dylib.可是却提示libxml/HTMLparser.h file not found. 这是由于你的开发环境默认的路径无法找到这 ...
- 从Nginx源代码谈大写和小写字符转化的最高效代码以及ASCII码表的科学
说起大写和小写字母转换.大家非常easy想起系统函数是不是,差点儿全部的编程语言都提供了这样的转换函数,可是你有没有想过这背后是怎么实现的? 让你写怎么实现? 我们都知道Nginx是眼下用的最多的Ht ...
- Hdu 4274 Spy's Work
Spy's Work Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...
- mysql order by的一些技巧
1. 只按日期排序,忽略年份> select date, description from table_name order by month(date),dayofmonth(date);注意 ...
- visual studio 2013 update 3正式版出来了
微软的更新速度还是蛮快的吗.新版本号出来了,大家快下载体验一下吧,详细下载地址在http://www.visualstudio.com/zh-cn/downloads/download-visual- ...
- 文件宝iOS/iPhone/iPad客户端简介
App Store地址:https://itunes.apple.com/cn/app/id1023365565?mt=8 文件宝-装机必备的文件管家,专业的rar-zip 解压工具,局域网看片神器, ...
- XML-RPC JSON-RPC RPC是实现思路
XML-RPC - Wikipedia https://en.wikipedia.org/wiki/XML-RPC JSON-RPC - Wikipedia https://en.wikipedia. ...
- Git 和 SVN 之间的五个基本区别
GIT不仅仅是个版本控制系统,它也是个内容管理系统(CMS),工作管理系统等.如果你是一个具有使用SVN背景的人,你需要做一定的思想转换,来适应GIT提供的一些概念和特征.所以,这篇文章的主要目的就是 ...
- 5.3linux下C语言socket网络编程简例
原创文章,转载请注明转载字样和出处,谢谢! 这里给出在Linux下的简单socket网络编程的实例,使用tcp协议进行通信,服务端进行监听,在收到客户端的连接后,发送数据给客户端:客户端在接受到数据后 ...