课时12 神经网络训练细节part2（上）

训练神经网络是由四步过程组成，你有一个完整的数据集图像和标签，从数据集中取出一小批样本，我们通过网络做前向传播得到损失，告诉我们目前分类效果怎么样。然后我们反向传播来得到每一个权重的梯度，这个梯度告诉我们如何去调整每一个权重，最终我们能够更好的分类图片。

为什么要使用激活函数？

如果在整个的神经网络中不使用激活函数，你的网络的分类能力基本等同于一个线性分类器，所以激活函数是相当关键的。他提供了所有的方法，你可以他用来存储数据

BN使得网络的训练更加健壮。

参数更新

补救SGD垂直进展快的方法，使用动量更新，他可以理解为一个球滚动着接近中间，在这个情况下的梯度可以视作一种动力，物理学中的这种力量，就相当于加速度，而mu倍的v相当于摩擦力。

v初始化为0，其实没什么影响

学习速率是应用到所有方向上的

Nesterov动量更新

我们直接达到这个目的，然后计算梯度。

我们进行了重新整理

虽然有很多局部最小值，但是他们的损失其实是差不多的。当你扩大神经网络的规模时候，你的最坏和最好局部最小值之间的差别随着时间的推移会越来越小。有研究表明，基本上也就不存在坏的局部最小值了，当然这也只在很小的网络中出现。事实上，你用不同的值初始化，你会得到相同的结果和损失，所以，基本上不存在不好的局部最小值。

AdaGrad更新

由凸优化理论发展而来的，然后被移植到了神经网络中，他的实现和一些基本的随机梯度下降的形式是一样的，我们用附加变量来放缩梯度，我们在不停地增加这一附加变量。这里的cache在这里由梯度的平方和构成，他一定是正数。变量cache是一个联合矢量，他和你的主向量是一样大的，因此cache在每一个维度计算其相应的梯度的平方和，我们有时称他为第二moment，我们将这些cache构造起来，然后逐项用这一函数除以cache的平方，这就是人们称他为每个参数自适应学习速率的方法的原因。因为参数空间的每一维，都有自己的学习速率，他会根据梯度的规模大小而动态的变化。le-7是一个平滑因子，一个超参数，防止除数变为0

问题：我们长时间训练，不断有正数加到分母的cache变量中，更新步长就会逐渐衰减到0，最后完全停止学习

改进：其主要思想是不再是在每一维度计算平方和而是变成一个泄漏的变量，最后我们利用衰减率这个超参数

Adam更新

一个动量m表示的是梯度的一阶矩，把他用指数和展开的形式表示。adagrad记录的是梯度的二阶矩，并按指数和形式表示，然后就得到Adam的更新了。可以从另一个角度来理解他，通过小批量抽样处理，在前向传播中你会得到很多随机值，你会得到这些带有噪声的梯度。所以相比于在每一步都用各自梯度值运算，我们实际上是利用前面几个梯度的衰减和，这样能稳定梯度方向，这就是动量的作用。放缩的作用是确保梯度大和梯度小的方向步长相关。

课时13 神经网络训练细节part2（下）

集成模型

小技巧：例如，当你在训练神经网络时设置一些检查点，通常是每个时期建立一个，对每个检查点都去验证这在验证集中的表现。这说明了你可以在模型中设置不同的检查点，然后在处理集合中使用他们，这被证明能够使得结果有所改善。

随机失活

在你进行神经网络前向传播的时候，你要随机的把一些神经元置零。计算每个隐藏层的激活函数，然后随机挑选出一半神经元失活。在反向传播中也要进行随机失活

意义：可以防止过拟合，因为如果我们只用网络的一半的话，他的表达能力就小了很多，我们每次只用一半网络的话，我们就能相对减少在训练中涉及到的变量数（从而减少过拟合的概率）

另一种解释是随机失活可以被视为训练一个由很多小模型集成而成的大模型。每一个子网络都是原来大网络的一个子网络，但是原网络和子网络之间并不能很好的分享参数。我们在前向传播的时候，随机失活一些，在反向传播过程中，我们也要经过这些掩模。在这时，只有那些在前向传播过程中，我们用到的没有失活的神经元的参数或者说经过这些神经元的梯度才会被更新。所以，在随机失活这个过程中，其实只是训练了一个在某一次取样中，选择的原网络的一部分。换句话说，每一个二进制掩模（随机失活后的网络）都是一个新模型，他只会被一个数据训练一次。

当你失活一个神经元的时候，他的权值也就不更新了，如果我们取样了网络的一部分，我们只会用一个数据点来训练这个子网络（因为每次循环中都有新的子网络）。每次我们都会用网络不同的部分来训练，但是他们之间都会有相同的参数（两次取样没有失活的部分），也就是说在多次循环中我们会用相同的数据点来训练不同的有共同参数的模型，这就是随机失活大概的意思。

如果想要更强的正则化，则可以失活更多的神经元。

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时12&&13的更多相关文章

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时3
课时3 计算机视觉历史回顾与介绍下 ImageNet有5000万张图片,全部都是人工清洗过得,标注了超过2万个分类. CS231n将聚焦于视觉识别问题,图像分类关注的是大图整体:物体检测告诉你东西具体 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时1
课时1 计算机视觉历史回顾与介绍上 CS231n:这一一门关于计算机视觉的课程,基于一种专用的模型架构,叫做神经网络(更细一点说,是卷积神经网络CNN).计算机视觉是人工智能领域中发展最为迅猛的一个分 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时26&&27
课时26 图像分割与注意力模型(上) 语义分割:我们有输入图像和固定的几个图像分类,任务是我们想要输入一个图像,然后我们要标记每个像素所属的标签为固定数据类中的一个使用卷积神经,网络为每个小区块进行 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时24&&25
课时24 深度学习开源库使用介绍(上) Caffe 被用于重新实现AlexNet,然后用AlexNet的特征来解决其他事情用C++书写的,可以去GitHub上面读取源代码主要四个类: Blob可以 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时8&&9
课时8 反向传播与神经网络初步(上) 反向传播在运算连路中,这是一种通过链式法则来进行递推的计算过程,这个链路中的每一个中间变量都会对最终的损失函数产生影响. 链式法则通常包含两部分,局部梯度和后一层 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时11
课时11 神经网络训练细节part1(下) 2010年,Glorot等人写的论文,我们称之为Xavier初始化,他们关注了神经元的方差表达式.他们推荐一种初始化方式,那就是对每个神经元的输入进行开根号 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时10
课时10 神经网络训练细节part1(上) 没有大量的数据也不会有太多影响,只需要找一个经过预训练的卷积神经网络然后进行调整从数据集中抽样一小批数据, 将数据运入卷积神经网络中来计算损失值通过反向 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时7
课时7 线性分类器损失函数与最优化(下) 我们为什么要最大化对数概率而非直接最大化概率? 你在做逻辑斯蒂回归时,如果你只是想要最大化概率,那你使用log是无意义的.因为log函数是单调函数,最大化概率 ...
斯坦福CS231n—深度学习与计算机视觉----学习笔记课时14&&15
课时14 卷积神经网络详解(上) CNN处理的是一些数据块,在这之间有很多层,一系列的层将输入数据变换为输出数据,所以完成操作的中间量不仅是NN时候讲的那些向量,而是立体结构,有宽,高和深度,在整个计 ...

随机推荐

C++常用字符串分割方法
一.用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim); 功能:分解字符串为一组字符串. 参数说明:str为要分解的字符串, ...
Ubuntu16.04安装openjdk-7-jdk
ubuntu14.04 升级16.04后会默认将jdk1.7删除,因此需要重新安装. Ubuntu16.04 安装Oracle JDK 和 Open jdk 默认JDK 安装比较轻松,但根据项目调整 ...
erlang 中文编码显示乱码问题
许久没做erlang开发了,近期有网友问到erlang的问题.就抽时间看下.问题是这种.模块有中文.将中文直接打印出来.shell下显示会出现乱码.但假设先将中文转成binary.就行正常显示出来. ...
【DataStructure】Description and Introduction of Tree
[Description] At ree is a nonlinear data structure that models a hierarchical organization. The char ...
如何在外部采用AES-128对HLS的TS流进行加密
http://www.wowza.cn/hls/howToSecureHlsByAes128External
sanic官方文档解析之下载和Configuration
1,sanic框架是做什么的? sanic的官方网址:https://sanic.readthedocs.io/en/latest/ sanic框架是一个类似于flask框架的在Python3.5以上 ...
sql insert and update
1 二者的区别 insert是插入一条新的数据,它会创建一条新的记录:update是更新一条已经有的数据,它不会创建新的记录. update需要where来指示更新那条记录,否则会更新所有的记录. 2
ZeroMQ 初步认识
http://www.danieleteti.it/zeromq-for-delphi/ https://my.oschina.net/zeroflamy/blog/109457 http://zer ...
acd - 1427 - Nice Sequence（线段树）
题意:一个由n个数组成的序列(序列元素的范围是[0, n]).求最长前缀 j .使得在这个前缀 j 中对于随意的数 i1 < i2.都满足随意的 m <= j.i1 在前 m 个数里出现的 ...
LWIP在STM32上的移植
本文做记录摘抄,加上自己的体会: 文章标题:STM32使用LWIP实现DHCP客户端 http://www.cnblogs.com/dengxiaojun/p/4379545.html 该文章介绍了几 ...

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时12&&13