关于BarchNorm的一些学习

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

1、Batch Normalization 并不能缓解深度网络梯度爆炸问题，反而是梯度爆炸的原因。一般通多跳跃连接，或者残差连接解决这个问题。参考论文《A Mean Field Theory of Batch Normalization》

2、Batch Normalization 成功的一个原因可能是将权重向量进行了解耦，分别解耦成方向和长度，然后分别训练。这可以加快收敛

3、Batch Normalization 并不能缓解内部协变量偏移。参考论文《How Does Batch Normalization Help Optimization?》，这篇文章也在一定程度上解释了这个问题。

4、Batch Normalization 另一个成功的原因可能是产生了更平滑的参数空间和更平滑的梯度。参考论文《How Does Batch Normalization Help Optimization?》

5、Batch Normalization 可以缓解梯度消失问题。在网络层数加深的时候，会影响我们每一层输出的数据分布。而之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（以Sigmoid函数为例），所以这导致后向传播时低层神经网络的梯度很小甚至消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，所以就可以让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

6、Batch Normalization：训练阶段使用Batch Normalization，推理阶段不使用Batch Normalization（由于在推理阶段，输入实例只有一个，看不到Mini-Batch其他实例，所以无法得到均值和方差。但是我们可以从训练实例中获得Mini-Batch里面m个训练实例获得的均值和方差的统计量。我们可以获取到训练实例全局统计量，对这些均值和方差求出其对应的数学期望，就可以得到我们需要的均值和期望，然后利用每个层已经有对应训练好的scale和shift，就可以在推理阶段对每个神经元的激活数据计算NB进行变换了。

关于BarchNorm的一些学习的更多相关文章

从直播编程到直播教育：LiveEdu.tv开启多元化的在线学习直播时代
2015年9月,一个叫Livecoding.tv的网站在互联网上引起了编程界的注意.缘于Pingwest品玩的一位编辑在上网时无意中发现了这个网站,并写了一篇文章<一个比直播睡觉更奇怪的网站:直 ...
Angular2学习笔记（1）
Angular2学习笔记(1) 1. 写在前面之前基于Electron写过一个Markdown编辑器.就其功能而言,主要功能已经实现,一些小的不影响使用的功能由于时间关系还没有完成:但就代码而言,之 ...
ABP入门系列（1）——学习Abp框架之实操演练
作为.Net工地搬砖长工一名,一直致力于挖坑(Bug)填坑(Debug),但技术却不见长进.也曾热情于新技术的学习,憧憬过成为技术大拿.从前端到后端,从bootstrap到javascript,从py ...
消息队列——RabbitMQ学习笔记
消息队列--RabbitMQ学习笔记 1. 写在前面昨天简单学习了一个消息队列项目--RabbitMQ,今天趁热打铁,将学到的东西记录下来. 学习的资料主要是官网给出的6个基本的消息发送/接收模型, ...
js学习笔记：webpack基础入门（一）
之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...
Unity3d学习制作地形
这周学习了如何在unity中制作地形,就是在一个Terrain的对象上盖几座小山,在山底种几棵树,那就讲一下如何完成上述内容. 1.在新键得项目的游戏的Hierarchy目录中新键一个Terrain对 ...
《Django By Example》第四章中文翻译（个人学习，渣翻）
书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:祝大家新年快乐,这次带来<D ...
菜鸟Python学习笔记第一天：关于一些函数库的使用
2017年1月3日星期二大一学习一门新的计算机语言真的很难,有时候连函数拼写出错查错都能查半天,没办法,谁让我英语太渣. 关于计算机语言的学习我想还是从C语言学习开始为好,Python有很多语言的 ...
多线程爬坑之路-学习多线程需要来了解哪些东西?(concurrent并发包的数据结构和线程池,Locks锁，Atomic原子类)
前言:刚学习了一段机器学习,最近需要重构一个java项目,又赶过来看java.大多是线程代码,没办法,那时候总觉得多线程是个很难的部分很少用到,所以一直没下决定去啃,那些年留下的坑,总是得自己跳进去填 ...
node.js学习（三）简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理
一.一个简单的node程序 1.新建一个txt文件 2.修改后缀修改之后会弹出这个,点击"是" 3.运行test.js 源文件使用node.js运行之后的. 如果该路径下没有该 ...

随机推荐

app专项测试：app弱网测试
app专项测试:app弱网测试弱网测试背景用户体验 APP使用过程中,弱网的高延迟和高丢包,在实时性要求非常高的场景,容易伤害用户体验非正常情况下,Bug出现几率会增加在解决日常支持需求中,经 ...
8、SpringBoot2之打包及运行
为了演示高级启动时动态配置参数的使用,本文在SpringBoot2之配置文件的基础上进行 8.1.概述普通的 web 项目,会被打成一个 war 包,然后再将 war 包放到 tomcat 的 we ...
【RabbitMQ】04 路由模式
在订阅模式的基础上制定一些特定发送规则创建路由模式的生产者: 注意这些变化,跟之前的订阅模式并不一样 package cn.dzz.routineQueueInProducer; import co ...
控制自行车前进/后退/平衡等动作，有必要使用在控制方面使用人工智能算法吗，还是传统的PID算法就完全可以胜任？
直接说答案,用不到人工智能算法做控制,现在人工智能算法主要的应用领域为感知学习,比较典型的就是图像识别和自然语言对话系统,而在控制算法上人工智能的解决方案依然不是很成熟,目前世界上唯一一个宣布可以落地 ...
为什么自动驾驶领域发论文都是用强化学习算法，但是实际公司里却没有一家使用强化学习算法？—— （特斯拉今年年初宣布推出实际上第一款纯端到端的自动驾驶系统，全部使用强化算法，替换掉30万行C++的rule-based代码）
为什么自动驾驶领域发论文都是用强化学习算法,但是实际公司里却没有一家使用强化学习算法?-- (特斯拉今年年初宣布推出实际上第一款纯端到端的自动驾驶系统,全部使用强化算法,替换掉原有的30万行C++的r ...
如何在Windows10电脑上打开3D建模STL文件
相关: https://www.bilibili.com/video/BV1gD4y1h7tj/
国产AI模型和美国顶级AI模型的距离在哪？—— 算力？算法？数据？
前段时间去了长春一汽,聊了Reinforcement Learning方面的工作,既是面试,也是谈了谈意向,最后全部OK,本打算是签合同了,结果HR说要求有三年的社保缴纳证明工作经验,最后说可以减到2 ...
java集合专题之Collection接口
1.背景集合是java中非常重要的技术点,也是面试经常问到的技术点.... 2.集合体系单列集合双列集合,key value集合如果出去面试,这体系应该可以背出来,才算合格 3.常用方法代码 ...
uniapp苹果开发用什么截屏
uniapp开发好苹果的app后,需要上架到app store connect后,用户才能使用app store进行安装. 在上架app store的过程中,却要求我们提供多种尺寸的app运行的设备截 ...
redis集群之哨兵模式
redis集群之哨兵模式 1.集群部署安装配置可参考一下地址: https://www.cnblogs.com/zhoujinyi/p/5569462.html 2.与springboot集成这里 ...

关于BarchNorm的一些学习

关于BarchNorm的一些学习的更多相关文章

随机推荐

热门专题