CS231n 2016 通关第五、六章 Batch Normalization 作业

BN层在实际中应用广泛。

上一次总结了使得训练变得简单的方法，比如SGD+momentum RMSProp Adam，BN是另外的方法。

cell 1 依旧是初始化设置

cell 2 读取cifar-10数据

cell 3 BN的前传

 # Check the training-time forward pass by checking means and variances

 # of features both before and after batch normalization

 # Simulate the forward pass for a two-layer network

 N, D1, D2, D3 = 200, 50, 60, 3

 X = np.random.randn(N, D1)

 W1 = np.random.randn(D1, D2)

 W2 = np.random.randn(D2, D3)

 a = np.maximum(0, X.dot(W1)).dot(W2)

 print 'Before batch normalization:'

 print '  means: ', a.mean(axis=0)

 print '  stds: ', a.std(axis=0)

 # Means should be close to zero and stds close to one

 print 'After batch normalization (gamma=1, beta=0)'

 a_norm, _ = batchnorm_forward(a, np.ones(D3), np.zeros(D3), {'mode': 'train'})

 print '  mean: ', a_norm.mean(axis=0)

 print '  std: ', a_norm.std(axis=0)

 # Now means should be close to beta and stds close to gamma

 gamma = np.asarray([1.0, 2.0, 3.0])

 beta = np.asarray([11.0, 12.0, 13.0])

 a_norm, _ = batchnorm_forward(a, gamma, beta, {'mode': 'train'})

 print 'After batch normalization (nontrivial gamma, beta)'

 print '  means: ', a_norm.mean(axis=0)

 print '  stds: ', a_norm.std(axis=0)

　　相应的核心代码：

     buf_mean = np.mean(x, axis=0)

     buf_var = np.var(x, axis=0)

     x_hat = x - buf_mean

     x_hat = x_hat / (np.sqrt(buf_var + eps))

     out = gamma * x_hat + beta

     #running_mean = momentum * running_mean + (1 - momentum) * sample_mean

     #running_var = momentum * running_var + (1 - momentum) * sample_var

     running_mean = momentum * running_mean + (1- momentum) * buf_mean

     running_var = momentum * running_var + (1 - momentum) * buf_var

　　running_mean running_var 是在test时使用的，test时不再另外计算均值和方差。

　　test 时的前传核心代码：

 x_hat = x - running_mean

 x_hat = x_hat / (np.sqrt(running_var + eps))

 out = gamma * x_hat + beta

cell 5 BN反向传播

　　通过反向传播，计算beta gamma等参数。

　　核心代码：

   dx_hat = dout * cache['gamma']

   dgamma = np.sum(dout * cache['x_hat'], axis=0)

   dbeta = np.sum(dout, axis=0)

   #x_hat = x - buf_mean

   #x_hat = x_hat / (np.sqrt(buf_var + eps))

   t1 = cache['x'] - cache['mean']

   t2 = (-0.5)*((cache['var'] + cache['eps'])**(-1.5))

   t1 = t1 * t2

   d_var = np.sum(dx_hat * t1, axis=0)

   tmean1 = (-1)*((cache['var'] + cache['eps'])**(-0.5))

   d_mean = np.sum(dx_hat * tmean1, axis=0)

   tmean1 = (-1)*tmean1

   tx1 =   dx_hat * tmean1

   tx2 = d_mean * (1.0 / float(N))

   tx3 = d_var * (2 * (cache['x'] - cache['mean']) / N)

   dx = tx1 + tx2 + tx3

cell 9 BN与其他层结合

　　形成的结构： {affine - [batch norm] - relu - [dropout]} x (L - 1) - affine - softmax

　　原理依旧。

之后是对cell 9 的模型，对cifar-10数据训练。

值得注意的是：

　　使用BN后，正则项与dropout层的需求降低。可以使用较高的学习率加快模型收敛。

附：通关CS231n企鹅群：578975100 validation：DL-CS231n

CS231n 2016 通关第五、六章 Batch Normalization 作业的更多相关文章

CS231n 2016 通关第五章 Training NN Part1
在上一次总结中,总结了NN的基本结构. 接下来的几次课,对一些具体细节进行讲解. 比如激活函数.参数初始化.参数更新等等. ====================================== ...
CS231n 2016 通关第五、六章 Fully-Connected Neural Nets 作业
要求:实现任意层数的NN. 每一层结构包含: 1.前向传播和反向传播函数:2.每一层计算的相关数值 cell 1 依旧是显示的初始设置 # As usual, a bit of setup impor ...
CS231n 2016 通关第五、六章 Dropout 作业
Dropout的作用: cell 1 - cell 2 依旧 cell 3 Dropout层的前向传播核心代码: train 时: if mode == 'train': ############ ...
CS231n 2016 通关第六章 Training NN Part2
本章节讲解参数更新 dropout ================================================================================= ...
CS231n 2016 通关第四章-NN 作业
cell 1 显示设置初始化 # A bit of setup import numpy as np import matplotlib.pyplot as plt from cs231n.class ...
CS231n 2016 通关第三章-SVM与Softmax
1===本节课对应视频内容的第三讲,对应PPT是Lecture3 2===本节课的收获 ===熟悉SVM及其多分类问题 ===熟悉softmax分类问题 ===了解优化思想由上节课即KNN的分析步骤 ...
CS231n 2016 通关第四章-反向传播与神经网络（第一部分）
在上次的分享中,介绍了模型建立与使用梯度下降法优化参数.梯度校验,以及一些超参数的经验. 本节课的主要内容: 1==链式法则 2==深度学习框架中链式法则 3==全连接神经网络 =========== ...
CS231n 2016 通关第三章-Softmax 作业
在完成SVM作业的基础上,Softmax的作业相对比较轻松. 完成本作业需要熟悉与掌握的知识: cell 1 设置绘图默认参数 mport random import numpy as np from ...
CS231n 2016 通关第三章-SVM 作业分析
作业内容,完成作业便可熟悉如下内容: cell 1 设置绘图默认参数 # Run some setup code for this notebook. import random import nu ...

随机推荐

本机上使用Three.js载入纹理
怎样载入纹理 // 首先, 创建一个纹理 var mapUrl = "../images/molumen_small_funny_angry_monster.jpg"; var m ...
js 宽和高
网页可见区域宽: document.body.clientWidth; 网页可见区域高: document.body.clientHeight; 网页可见区域宽: document.body.offs ...
[ssh新闻公布系统三]存储新闻
一.存储新闻dao方法在NewsDao.java中新增存储新闻的saveOrupdate方法 public void saveOrupdate(News news){ getSession().sa ...
Android------Intent.createChooser
Intent的匹配过程中有三个步骤,包含Action , category与data 的匹配. 假设匹配出了多个结果.系统会显示一个dialog让用户来选择.例如以下图: 那么今天我们主要是解 ...
JavaScript读书笔记（2）--数据类型
1. 严格模式:在javascript中定义了一种不同的解析与执行模型.在严格模式下,一些不确定的行为将得到处理,对某些不安全的操作也会抛出错误. 用法是在脚本中添加:”use strict”; 这 ...
两个经典的文件IO程序示例
前言本文分析两个经典的C++文件IO程序,提炼出其中文件IO的基本套路,留待日后查阅. 程序功能程序一打印用户指定的所有文本文件,程序二向用户指定的所有文本文件中写入数据. 程序一代码及其注释 # ...
ContentPresenter理解
这是2年前写了一篇文章 http://www.cnblogs.com/Clingingboy/archive/2008/07/03/wpfcustomcontrolpart-1.html 我们先来看M ...
WPF触发器(Trigger、DataTrigger、EventTrigger)
WPF中有种叫做触发器的东西(记住不是数据库的trigger哦).它的主要作用是根据trigger的不同条件来自动更改外观属性,或者执行动画等操作. WPFtrigger的主要类型有:Trigger. ...
设置netbeans文件编码格式
在项目ecmall上右键选择属性,然后在项目属性里设置
九度OJ 1139：最大子矩阵（矩阵运算、缓存）
时间限制:1 秒内存限制:32 兆特殊判题:否提交:1014 解决:376 题目描述: 已知矩阵的大小定义为矩阵中所有元素的和.给定一个矩阵,你的任务是找到最大的非空(大小至少是1 * 1)子矩 ...

CS231n 2016 通关 第五、六章 Batch Normalization 作业

CS231n 2016 通关 第五、六章 Batch Normalization 作业的更多相关文章

随机推荐

热门专题

CS231n 2016 通关第五、六章 Batch Normalization 作业

CS231n 2016 通关第五、六章 Batch Normalization 作业的更多相关文章