吴恩达深度学习笔记（十二）—

主要内容：

一、Normalizing activations in a network

二、Fitting Batch Norm in a neural network

三、Why does Batch Norm work?

四、Batch Norm at test time

一、Normalizing activations in a network

1、在浅层机器学习算法中，如logistics regression，我们通常使用normalization来加速梯度下降。那么同样，我们也可以把normalization运用于神经网络。

2.在神经网络中，不仅有X作为最初的输入，还有当前层的激活值a[l]作为下一层的输入。因此，我们不仅仅对输入层做特征归一化处理，同样需要对隐藏层做归一化处理。

3、在Batch Norm中，一般是对输入激活函数之前的z做归一化处理，而不是激活值a。其步骤如下：

可以看出，前三步与浅层机器学习算法的normalization无异，只是多了第四步。而第四步的作用就是将归一化的z再做一下缩放和平移（线性变换），因为有时候可能不希望隐藏层的z的均值和方差总是等于0和1。如在激活函数sigmod中，我们不希望输入值z的均值和方差为0和1，使得sigmod被利用的仅仅为线性部分：

二、Fitting Batch Norm in a neural network

1、将Batch Norm运用于整个神经网络，其步骤如下：

2、需要学习的参数有：

3、在实际中，Batch Norm通常和mini-batch gradient descent一起使用：

注意：z[t]经过归一化后其均值为0，而z[t] = w[t-1]a[t-1]+b[t],所以b[t]实际是无意义的，它其实就是一个偏移值，而归一化后就去掉了偏移值。所以在这里可以不考虑b[t]。

三、Why does Batch Norm work?

1、通过特征归一化，使得输入值的均值和方差变成0和一，这样能加速梯度下降。

2、解决了covariate shift的问题。covariate shift的大概意思就是：当输入值的分布情况发生了变化，那么原先学习到的算法将不再适用于新的输入。比如对于神经网络的第t层，他们的输入值的分布情况取决于前面层的参数，而这些参数在学习过程中是不断变化的，因此第t层的输入值的分布也是不断变化了，那么学习将变得无效。而引入batch norm后，每一层输入的分布变得稳定了，那就是N(0,1)再经过线性调整，因此学习变得有效了。

四、Batch Norm at test time

1、在测试时，同样需要对输入进行batch norm。根据batch norm的式子，我们需要计算均值和方差，但是计算测试数据的均值和方差是不合适的，比如当测试数据个数为1时，均值和方差变得无意义的。

2、测试数据的均值和方差，通常是在mini-batch gradient descent的时候通过指数加权平均求得。

吴恩达深度学习笔记（十二）—— Batch Normalization的更多相关文章

【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
吴恩达深度学习笔记（八） —— ResNets残差网络
(很好的博客:残差网络ResNet笔记) 主要内容: 一.深层神经网络的优点和缺陷二.残差网络的引入三.残差网络的可行性四.identity block 和 convolutional bloc ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（二）
经典网络 LeNet-5 AlexNet VGG Ng介绍了上述三个在计算机视觉中的经典网络.网络深度逐渐增加,训练的参数数量也骤增.AlexNet大约6000万参数,VGG大约上亿参数. 从中我们可 ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）
作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十 ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（一）
Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. ...
吴恩达深度学习笔记（deeplearning.ai）之循环神经网络（RNN）（三）
1. 导读本节内容介绍普通RNN的弊端,从而引入各种变体RNN,主要讲述GRU与LSTM的工作原理. 事先声明,本人采用ng在课堂上所使用的符号系统,与某些学术文献上的命名有所不同,不过核心思想都是 ...
吴恩达深度学习笔记（七） —— Batch Normalization
主要内容: 一.Batch Norm简介二.归一化网络的激活函数三.Batch Norm拟合进神经网络四.测试时的Batch Norm 一.Batch Norm简介 1.在机器学习中,我们一般会 ...
吴恩达深度学习笔记1-神经网络的编程基础(Basics of Neural Network programming)
一:二分类(Binary Classification) 逻辑回归是一个用于二分类(binary classification)的算法.在二分类问题中,我们的目标就是习得一个分类器,它以对象的特征向量 ...
吴恩达深度学习笔记（十一）—— dropout正则化
主要内容: 一.dropout正则化的思想二.dropout算法流程三.dropout的优缺点一.dropout正则化的思想在神经网络中,dropout是一种“玄学”的正则化方法,以减少过拟合 ...

随机推荐

try git
Git allows groups of people to work on the same documents (often code) at the same time, and without ...
gitlab报错收集
登录502报错一般是权限问题,解决方法: /var/log/gitlab 如果还不行,请检查你的内存,安装使用GitLab需要至少4GB可用内存(RAM + Swap)! 由于操作系统和其他正在运行 ...
Javadoc生成html帮助文档
注意事项: 右键项目 -> Export -> Java -> JavaDoc -> 选定Public表示录入所有的源文件,其他的可想而知按步骤走下去最后Finish时 ...
LR测试文件上传
开启fiddler 录制,回放,把上传文件放入脚本根目录中.
【BZOJ2242】[SDOI2011]计算器 BSGS
[BZOJ2242][SDOI2011]计算器 Description 你被要求设计一个计算器完成以下三项任务: 1.给定y,z,p,计算Y^Z Mod P 的值: 2.给定y,z,p,计算满足xy≡ ...
Shell脚本实现用户数据导入
#输入:固定格式的用户数据user.sql #处理:循环读取user.sql中的每行(每行对应一条用户数据),依次调用curl命令将用户插入BearyChat #输出:执行结果输出到日志文件outlo ...
oracelp---随意记录（nvl）
1.Oracle的Nvl函数 nvl( ) 函数从两个表达式返回一个非null 值. 语法 NVL(eExpression1, eExpression2) 参数 eExpression1, eExp ...
深入理解javascript原型和闭包（17）——补充：上下文环境和作用域的关系
摘自:http://www.cnblogs.com/wangfupeng1988/p/4000798.html:作者:王福朋: 本系列用了大量的篇幅讲解了上下文环境和作用域,有些人反映这两个是一回儿事 ...
qt sql 模块有哪些类？
Class Description translate.google QSqlDatabase Handles a connection to a database 处理与数据库的连接 QSqlDri ...
springcloud zuul
zuul是springcloud的API网关. 入口也是springmvc的DispatcherServlet. 实际的handler是ZuulController,通过handleRequest方法 ...

吴恩达深度学习笔记（十二）—— Batch Normalization

吴恩达深度学习笔记（十二）—— Batch Normalization的更多相关文章

随机推荐

热门专题