吴恩达深度学习笔记（十二）—

主要内容：

一、Normalizing activations in a network

二、Fitting Batch Norm in a neural network

三、Why does Batch Norm work?

四、Batch Norm at test time

一、Normalizing activations in a network

1、在浅层机器学习算法中，如logistics regression，我们通常使用normalization来加速梯度下降。那么同样，我们也可以把normalization运用于神经网络。

2.在神经网络中，不仅有X作为最初的输入，还有当前层的激活值a[l]作为下一层的输入。因此，我们不仅仅对输入层做特征归一化处理，同样需要对隐藏层做归一化处理。

3、在Batch Norm中，一般是对输入激活函数之前的z做归一化处理，而不是激活值a。其步骤如下：

可以看出，前三步与浅层机器学习算法的normalization无异，只是多了第四步。而第四步的作用就是将归一化的z再做一下缩放和平移（线性变换），因为有时候可能不希望隐藏层的z的均值和方差总是等于0和1。如在激活函数sigmod中，我们不希望输入值z的均值和方差为0和1，使得sigmod被利用的仅仅为线性部分：

二、Fitting Batch Norm in a neural network

1、将Batch Norm运用于整个神经网络，其步骤如下：

2、需要学习的参数有：

3、在实际中，Batch Norm通常和mini-batch gradient descent一起使用：

注意：z[t]经过归一化后其均值为0，而z[t] = w[t-1]a[t-1]+b[t],所以b[t]实际是无意义的，它其实就是一个偏移值，而归一化后就去掉了偏移值。所以在这里可以不考虑b[t]。

三、Why does Batch Norm work?

1、通过特征归一化，使得输入值的均值和方差变成0和一，这样能加速梯度下降。

2、解决了covariate shift的问题。covariate shift的大概意思就是：当输入值的分布情况发生了变化，那么原先学习到的算法将不再适用于新的输入。比如对于神经网络的第t层，他们的输入值的分布情况取决于前面层的参数，而这些参数在学习过程中是不断变化的，因此第t层的输入值的分布也是不断变化了，那么学习将变得无效。而引入batch norm后，每一层输入的分布变得稳定了，那就是N(0,1)再经过线性调整，因此学习变得有效了。

四、Batch Norm at test time

1、在测试时，同样需要对输入进行batch norm。根据batch norm的式子，我们需要计算均值和方差，但是计算测试数据的均值和方差是不合适的，比如当测试数据个数为1时，均值和方差变得无意义的。

2、测试数据的均值和方差，通常是在mini-batch gradient descent的时候通过指数加权平均求得。

吴恩达深度学习笔记（十二）—— Batch Normalization的更多相关文章

【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
吴恩达深度学习笔记（八） —— ResNets残差网络
(很好的博客:残差网络ResNet笔记) 主要内容: 一.深层神经网络的优点和缺陷二.残差网络的引入三.残差网络的可行性四.identity block 和 convolutional bloc ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（二）
经典网络 LeNet-5 AlexNet VGG Ng介绍了上述三个在计算机视觉中的经典网络.网络深度逐渐增加,训练的参数数量也骤增.AlexNet大约6000万参数,VGG大约上亿参数. 从中我们可 ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（CNN）（上）
作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十 ...
吴恩达深度学习笔记（deeplearning.ai）之卷积神经网络（一）
Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十分方便,便于指出过滤器的位置. ...
吴恩达深度学习笔记（deeplearning.ai）之循环神经网络（RNN）（三）
1. 导读本节内容介绍普通RNN的弊端,从而引入各种变体RNN,主要讲述GRU与LSTM的工作原理. 事先声明,本人采用ng在课堂上所使用的符号系统,与某些学术文献上的命名有所不同,不过核心思想都是 ...
吴恩达深度学习笔记（七） —— Batch Normalization
主要内容: 一.Batch Norm简介二.归一化网络的激活函数三.Batch Norm拟合进神经网络四.测试时的Batch Norm 一.Batch Norm简介 1.在机器学习中,我们一般会 ...
吴恩达深度学习笔记1-神经网络的编程基础(Basics of Neural Network programming)
一:二分类(Binary Classification) 逻辑回归是一个用于二分类(binary classification)的算法.在二分类问题中,我们的目标就是习得一个分类器,它以对象的特征向量 ...
吴恩达深度学习笔记（十一）—— dropout正则化
主要内容: 一.dropout正则化的思想二.dropout算法流程三.dropout的优缺点一.dropout正则化的思想在神经网络中,dropout是一种“玄学”的正则化方法,以减少过拟合 ...

随机推荐

nginx 日志参数说明
$args #请求中的参数值 $query_string #同 $args $arg_NAME #GET请求中NAME的值 $is_args #如果请求中有参数,值为"?",否则为 ...
Handler classes should be static or leaks might occur
http://droidyue.com/blog/2014/12/28/in-android-handler-classes-should-be-static-or-leaks-might-occur ...
zoj 3349 dp + 线段树优化
题目:给出一个序列,找出一个最长的子序列,相邻的两个数的差在d以内. /* 线段树优化dp dp[i]表示前i个数的最长为多少,则dp[i]=max(dp[j]+1) abs(a[i]-a[j])&l ...
M²的经典语录
1. If you failed, stop and think! You should work in the correct way. 2. If I can do all of it, why ...
清空javascript数组数据
var arrayObj = new Array(); arrayObj.splice(0, arrayObj.length);//清空数组数据
Python学习笔记（三）windows下安装theano
2016.6.28补充: 不论是实验室的电脑还是我的笔记本,只要是windows下,theano.test()都是不通过的.虽然能使用一些theano中的函数,但是我感觉很不好. 所以还是转Ubunt ...
java内部类详细介绍
0.内部类与一般类有所不同,它是放在外部类的内部即可作为外部类的成员变量,也可放在方法内部作为局部变量,既然是变量,那么它可以用 private static 修饰符修饰,而外部类则不能,这也是内部类 ...
Go语言的一些问题
1.go 运行错误expected 'package', found 'EOF'解决? 只要将文件保存一下,再运行就ok了. 2.问题如下: D:\goprojects>go buildcan' ...
JavaWeb 之文件下载
1. 下载概述下载就是向客户端响应字节数据! 将一个文件变成字节数组, 使用 response.getOutputStream() 来响应给浏览器!! 2. 下载要求两个头一个流 Content- ...
安装CentOS 7.4 可能会出现的坑以及解决方案
安装CentOS 7.4 可能会出现的坑以及解决方案 (解决方法不唯一,如果行不通的话emmmm~~, 百度会啥你会啥~~) 坑.0X01 解决: 退出虚拟机,以管理员权限运行坑.0X02 解决: ...

吴恩达深度学习笔记（十二）—— Batch Normalization

吴恩达深度学习笔记（十二）—— Batch Normalization的更多相关文章

随机推荐

热门专题