ubuntu之路——day9.2 Covariate shift问题和Batch Norm的解决方案

Batch Norm的意义:Covariate shift的问题在传统的机器学习中,我们通常会认为source domain和target domain的分布是一致的,也就是说,训练数据和测试数据是满足相同分布的.这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障. Convariate Shift是指训练集的样本数据和目标样本集分布不一致时,训练得到的模型无法很好的Generalization.它是分布不一致假设之下的一个分支问题,也就是指Sorce Domain和Targe…

ubuntu之路——day9.3 softmax regression激活函数

Softmax 用于在深度学习中处理多分类(C > 2)问题,分类器最后的输出单元需要Softmax 函数进行数值处理.关于Softmax 函数的定义如下所示: 其中vi表示 vi = z[L] = w[L]a[L-1]+b[L] t = e[Vi] 举个例子: 这样就对应着最终分类的四个类别的概率与softmax对应的就是hardmax 对应上面的例子就是形成一个[1,0,0,0]T的结果,即在最大的元素位置填1,其他的都填0 另外如果将softmax局限在C=2的条件下,事实上就变成了了一…

ubuntu之路——day9.1 深度学习超参数的调优

参数重要性: 第一阶:α即learning rate 第二阶:momentum中的β,hidden units的数量,mini-batch的大小第三阶:hidden layers的数量,learning rate decay的参数参数选择的方式: 一.完全在一定范围内进行随机二.尝试完毕上述随机参数后,以粗糙到精确的思路,缩小随机范围并重复第一步 python中参数的具体实现: 对于学习率α而言:0 < α < 1 所以打个比方如果测试 0.0001 ≤ α ≤ 1显然这是一种指数分布,…

图像分类（二）GoogLenet Inception_v2：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Inception V2网络中的代表是加入了BN(Batch Normalization)层,并且使用 2个 3*3卷积替代 1个5*5卷积的改进版,如下图所示: 其特点如下: 学习VGG用2个 3*3卷积代替 Inception V1中的 5*5大卷积.这样做在减少参数(3*3*2+2 –> 5*5+1)的同时可以建立更多的非线性变换,增强网络对特征的学习能力.如下图所示,2个 3*3卷积的效果与一个 5*5 卷积的效果类似: 在 Inception V1中加入BN层,以减少 Internal…

Batch normalization:accelerating deep network training by reducing internal covariate shift的笔记

说实话,这篇paper看了很久,,到现在对里面的一些东西还不是很好的理解. 下面是我的理解,当同行看到的话,留言交流交流啊!!!!! 这篇文章的中心点:围绕着如何降低 internal covariate shift 进行的, 它的方法就是进行batch normalization. internal covariate shift 和 batch normalization 1. 什么是 internal covariate shift呢? 简单地理解为一个网络或system的输入的dirs…

Batch Normalization原理及其TensorFlow实现——为了减少深度神经网络中的internal covariate shift，论文中提出了Batch Normalization算法，首先是对”每一层“的输入做一个Batch Normalization 变换

批标准化(Bactch Normalization,BN)是为了克服神经网络加深导致难以训练而诞生的,随着神经网络深度加深,训练起来就会越来越困难,收敛速度回很慢,常常会导致梯度弥散问题(Vanishing Gradient Problem). 统计机器学习中有一个经典的假设:Source Domain 和 Target Domain的数据分布是一致的.也就是说,训练数据和测试数据是满足相同分布的.这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障. Convariate Shi…

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

1. 摘要训练深层的神经网络非常困难,因为在训练的过程中,随着前面层数参数的改变,每层输入的分布也会随之改变.这需要我们设置较小的学习率并且谨慎地对参数进行初始化,因此训练过程比较缓慢. 作者将这种现象称之为 internal covariate shift,通过对每层的输入进行归一化来解决这个问题. 引入 BN 后,我们可以不用太在意参数的初始化,同时使用更大的学习率,而且也会有正则化的效果,在一些情况下可以不用再使用 Dropout. 2. 介绍因为网络中每一层的输入都受到前面所有层参数…

论文笔记：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

ICML, 2015 S. Ioffe and C. Szegedy 解决什么问题(What) 分布不一致导致训练慢:每一层的分布会受到前层的影响,当前层分布发生变化时,后层网络需要去适应这个分布,训练时参数的变化会导致各层分布的不断变化,这个问题被定义为"internal covariate shift",由于每一层的分布不一样,就会导致训练很慢梯度消失和梯度爆炸:深度网络中微小的参数变动引起梯度上的剧变,导致训练陷入sigmoid的饱和区需要使用较小的学习率:大的学习率可能会导…

Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift(BN)

internal covariate shift(ics):训练深度神经网络是复杂的,因为在训练过程中,每层的输入分布会随着之前层的参数变化而发生变化.所以训练需要更小的学习速度和careful参数初始化,这将减缓训练的速度. bn的目的就是解决ics 我们知道在神经网络训练开始前,都要对输入数据做一个归一化处理,那么具体为什么需要归一化呢?归一化后有什么好处呢?原因在于神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低:另外一方面,一旦每批…

Deep Learning 27：Batch normalization理解——读论文“Batch normalization: Accelerating deep network training by reducing internal covariate shift ”——ICML 2015

这篇经典论文,甚至可以说是2015年最牛的一篇论文,早就有很多人解读,不需要自己着摸,但是看了论文原文Batch normalization: Accelerating deep network training by reducing internal covariate shift 和下面的这些解读之后,还有感觉有些不明白.比如, 是怎么推导出来的,我怎么就是没搞懂呢? 1.论文翻译:论文笔记-Batch Normalization 2.博客专家黄锦池的解读:深度学习(二十九)Batch…

Python之路,Day9 - 异步IO\数据库\队列\缓存

https://www.cnblogs.com/alex3714/articles/5248247.html http://www.cnblogs.com/wupeiqi/articles/5132791.html Python之路[第九篇]:Python操作 RabbitMQ.Redis.Memcache.SQLAlchemy…

ubuntu之路——day1(一点十五分 MMP终于把显卡装好了)

因为要上手深度学习的原因,购置了一台RTX2080TI+ubuntu18.04的机器例行两条命令 sudo apt-get update sudo apt-get upgrade 开启巨坑第一天,以前只在虚拟机上用过ubuntu,今天开箱之后因为用户名和主机名的问题我重装了ubuntu,问题一,参考了网上各种创建用户和主机并删除以前用户组的方法,改了好多系统文件结果gg,卡黑屏,没办法只能重装. 重装后遇见的问题二,nvidia驱动问题,因为N卡厂商的闭源行为和linux闹得不是很愉快,因此以…

Python之路,Day9, 进程、线程、协程篇

本节内容操作系统发展史介绍进程.与线程区别 python GIL全局解释器锁线程语法 join 线程锁之Lock\Rlock\信号量将线程变为守护进程 Event事件 queue队列生产者消费者模型 Queue队列开发一个线程池进程语法进程间通讯进程池操作系统发展史手工操作(无操作系统) 1946年第一台计算机诞生--20世纪50年代中期,还未出现操作系统,计算机工作采用手工操作方式. 手工操作程序员将对应于程序和数据的已穿孔的纸带(或卡片)装入输入机,然后启动输入机把…

【Python自动化运维之路Day9】Socket

socket也可以认为是套接字是一种源IP地址和目的IP地址以及源端口号和目的端口号的组合.网络化的应用程序在开始任何通讯之前都必须要创建套接字.就像电话的插口一样,没有它就没办法通讯. socket即是一种特殊的文件,一些socket函数就是对其进行的操作(读/写IO.打开.关闭) 我们知道两个进程如果需要进行通讯最基本的一个前提能能够唯一的标示一个进程,在本地进程通讯中我们可以使用PID来唯一标示一个进程,但PID只在本地唯一,网络中的两个进程PID冲突几率很大,这时候我们需要另辟它径了,我…

Python之路Day9

摘要: 协程 Select\Poll\Epoll异步IO与事件驱动 Python连接MySQL数据库操作 RabbitMQ队列 Redis\Memcached缓存 Paramiko Twsited网络框架 1. 协程: 线程和进程的操作是由程序触发系统接口,最后的执行者是系统:而协程的操作者则是程序员. 协程存在的意义:对于多线程应用,CPU通过切片的方式来切换线程间的执行,线程切换时需要耗时(保存状态,下次继续).协程则只使用一个线程,在一个线程中规定某个代码块执行顺序. 协程的适用场景:当程…

Python之路,Day9 - 线程、进程、协程和IO多路复用

参考博客: 线程.进程.协程: http://www.cnblogs.com/wupeiqi/articles/5040827.html http://www.cnblogs.com/alex3714/articles/5230609.html IO多路复用: http://www.cnblogs.com/wupeiqi/articles/5040823.html 课堂笔记: - 线程进程介绍 1. 工作最小单元是线程 2. 应用程序 -> 至少有一个进程 -> 至少有一个线程 3. 应用场景…

Python之路,Day9 , IO多路复用(番外篇)

同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别?不同的人在不同的上下文下给出的答案是不同的.所以先限定一下本文的上下文. 本文讨论的背景是Linux环境下的network IO. 一概念说明在进行解释之前,首先要说明几个概念:- 用户空间和内核空间- 进程切换- 进程的阻塞- 文件描述符- 缓存 I/O 用户空间与内核空间现在操作系统都是采用虚拟存储器,那么对32位操作系统而言,它的寻址空间(虚拟存储空间)为4G(2的32次方).操作系统的核心是内核,独立于普通的应用程…

ubuntu之路——day20 昨天和今天搞定Res18并在GPU上运行明天YOLO在车辆识别上试一下

…

ubuntu之路——day19.2 开源框架与迁移、CNN中的数据扩充

开源框架与迁移上面介绍了一些已经取得很好成绩的CNN框架,我们可以直接从GitHub上下载这些神经网络的结构和已经在ImageNet等数据集上训练好的权重超参数. 在应用于我们自己的数据时. 1.如果我们的数据集很小,我们可以采用对原框架和权重都保持不变,只更改最后的output层实现迁移. 2.如果我们的数据集大小中等,可以尝试冻结原框架的前面多层,对其后的层数进行更改. 3.如果我们的数据集很大,可以在原架构上尝试新的训练,不采用预训练的权重,还可以自行更改模型,做更多的尝试. CNN中的…

ubuntu之路——day19.1 深度CNN的探究

1.经典的CNN LeNet-5 1998的CNN鼻祖以前用的sigmoid和tanh 下图给的是relu和softmax AlexNet ImageNet2012的冠军 VGG-16 ImageNet2014的冠军和亚军 2.残差神经网络 imageNet2015冠军和2016的亚军 2017的冠军SENet也算是res的变种 3.GoogleNet即inceptionNet 主要贡献在1x1卷积的channel缩放上然后用了很多same conv组成了inception结构有V1V2V…

ubuntu之路——day18 用pytorch完成CNN

本次作业:Andrew Ng的CNN的搭建卷积神经网络模型以及应用(1&2)作业目录参考这位博主的整理:https://blog.csdn.net/u013733326/article/details/79827273 今天要实现的是识别手势姿势表达的数字我的Git传送门:https://github.com/VVV-LHY/deeplearning.ai/tree/master/CNN/RecognizeGestureNum 本来是接着day17用了numpy编了一个卷积层和池化层的前向传播…

ubuntu之路——day17.1 用np.pad做padding

网上对np.pad的解释很玄乎,举的例子也不够直观,看了更晕了,对于CNN的填充请参考下面就够用了: np.pad的参数依次是目标数组,多增加的维数可以理解为一张图的前后左右增加几圈,设置为'constant'之后为连续填充相同的值,默认为(0, 0),可以设置为constant_values = (x, y)…

ubuntu之路——day17.4 卷积神经网络示例

以上是一个识别手写数字的示例在这个示例中使用了两个卷积-池化层,三个全连接层和最后的softmax输出层一般而言,CNN的构成就是由数个卷积层紧跟池化层再加上数个全连接层和输出层来构建网络. 在上述网络中可以看到一个有关参数的现象如下图: 随着卷积网络层数的增加,可以看到有关图片数据的height和weight都在减小,而信道channel在增加. 伴随着这种操作,激活层的大小也在减小.但是卷积层需要的参数量在增多(f x f + 1) x c,f为filter的大小,c为channel的数…

ubuntu之路——day17.3 简单的CNN和CNN的常用结构池化层

来看上图的简单CNN: 从39x39x3的原始图像不填充且步长为1的情况下经过3x3的10个filter卷积后得到了 37x37x10的数据不填充且步长为2的情况下经过5x5的20个filter卷积后得到了 17x17x20的数据不填充且步长为2的情况下经过5x5的40个filter卷积后得到了 7x7x40的最终结果将7x7x40的卷积层全部展开作为输入特征,建立一个输入层单元数为1960的神经网络即可卷积神经网络常见的结构: 1.Conv卷积层如上图所见 2.Pool池化层…

ubuntu之路——day17.2 RGB图像的卷积、多个filter的输出、单个卷积层的标记方法

和单层图像的卷积类似,只需要对每一个filter构成的三层立方体上的每一个数字与原图像对应位置的数字相乘相加求和即可. 在这个时候可以分别设置filter的R.G.B三层,可以同时检测纵向或横向边缘,也可以只检测某一通道的,只需要对其他通道的filter置为0即可. 那么如果要使用filter同时对纵向.横向或者其他角度的边缘进行检测该怎么办呢? Multiple filter: 对于同时采用多个filter来检测不同特征的时候,只需要将多个filter的结果堆叠起来输出即可,如上图所示. 神经…

ubuntu之路——day17.1 卷积操作的意义、边缘检测的示例、filter与padding的关系、卷积步长

感谢吴恩达老师的公开课,以下图片均来自于吴恩达老师的公开课课件为什么要进行卷积操作? 我们通过前几天的实验已经做了64*64大小的猫图片的识别. 在普通的神经网络上我们在输入层上输入的数据X的维数为(64*64*3, m) 假设第二层的节点数为1000,在全连接网络下,则W的维数为(1000, 64*64*3). 这看起来是可以操作的,但是实际情况下的图片是更高清的,比如现在的手机已经动辄2400万像素. 在这种情况下让内存来处理很多W权重矩阵是不现实的,因此卷积神经网络就成为了计算机视觉领域…

ubuntu之路——day16 只用python的numpy在底层检验神经网络的优化算法

首先感谢这位博主整理的Andrew Ng的deeplearning.ai的相关作业:https://blog.csdn.net/u013733326/article/details/79827273 开一个我的github传送门,可以看到代码. https://github.com/VVV-LHY/deeplearning.ai/tree/master/improveNeuralNetwork/optimalNN 待分类的点集: 普通的梯度下降法GradientDescent(带minibatc…

ubuntu之路——day15.2 只用python的numpy在底层检验正则化对模型的影响

首先感谢这位博主整理的Andrew Ng的deeplearning.ai的相关作业:https://blog.csdn.net/u013733326/article/details/79827273 开一个我的github传送门,可以看到代码. https://github.com/VVV-LHY/deeplearning.ai/tree/master/improveNeuralNetwork/InitializeRegularize L2正则化待分类的数据点集; 未使用L2正则化的模型迭代过…

ubuntu之路——day15.1 只用python的numpy在底层检验参数初始化对模型的影响

首先感谢这位博主整理的Andrew Ng的deeplearning.ai的相关作业:https://blog.csdn.net/u013733326/article/details/79827273 开一个我的github传送门,可以看到代码. https://github.com/VVV-LHY/deeplearning.ai/tree/master/improveNeuralNetwork/InitializeRegularize 以下是今天要分类的目标点集: 在初始化w权重矩阵为0的情况下…

ubuntu之路——day14 只用python的numpy在底层实现多层神经网络

首先感谢这位博主整理的Andrew Ng的deeplearning.ai的相关作业:https://blog.csdn.net/u013733326/article/details/79827273 开一个我的github传送门,可以看到代码. https://github.com/VVV-LHY/deeplearning.ai/tree/master/NeuralNetworkandDeepLearning/L_layerNeuralNetwork 今天搭建了两个神经网络:一个是包含两个隐含层…

【ubuntu之路——day9.2 Covariate shift问题和Batch Norm的解决方案】的更多相关文章