Dropout

def dropout_forward(x, dropout_param):

    p, mode = dropout_param['p'], dropout_param['mode']

    if 'seed' in dropout_param:

        np.random.seed(dropout_param['seed'])

    mask = None

    out = None

    if mode == 'train':

#训练环节开启

        mask = (np.random.rand(*x.shape) < p) / p

        out = x * mask

    elif mode == 'test':   #测试环节关闭

        out = x

    cache = (dropout_param, mask)

    out = out.astype(x.dtype, copy=False)

    return out, cache

def dropout_backward(dout, cache):

    dropout_param, mask = cache

    mode = dropout_param['mode']

    dx = None

    if mode == 'train':

        dx = dout * mask

    elif mode == 'test':

        dx = dout

    return dx

Batch Normalization

Batch Normalization就是在每一层的wx+b和f(wx+b)之间加一个归一化（将wx+b归一化成：均值为0，方差为1

通常：Means should be close to zero and stds close to one

gamma, beta = np.ones(C), np.zeros(C)

先给出Batch Normalization的算法和反向求导公式：

import numpy as np

def batchnorm_forward(x, gamma, beta, bn_param):

    mode = bn_param['mode']

    eps = bn_param.get('eps', 1e-5)

    momentum = bn_param.get('momentum', 0.9)

    N, D = x.shape

    running_mean = bn_param.get('running_mean', np.zeros(D, dtype=x.dtype))

    running_var = bn_param.get('running_var', np.zeros(D, dtype=x.dtype))

    out, cache = None, None

    if mode == 'train':

        sample_mean = np.mean(x, axis=0, keepdims=True)       # [1,D]

        sample_var = np.var(x, axis=0, keepdims=True)         # [1,D]

        x_normalized = (x - sample_mean) / np.sqrt(sample_var + eps)    # [N,D]

        out = gamma * x_normalized + beta

        cache = (x_normalized, gamma, beta, sample_mean, sample_var, x, eps)

        running_mean = momentum * running_mean + (1 - momentum) * sample_mean

        running_var = momentum * running_var + (1 - momentum) * sample_var

    elif mode == 'test':

        x_normalized = (x - running_mean) / np.sqrt(running_var + eps)

        out = gamma * x_normalized + beta

    else:

        raise ValueError('Invalid forward batchnorm mode "%s"' % mode)

    # Store the updated running means back into bn_param

    bn_param['running_mean'] = running_mean

    bn_param['running_var'] = running_var

    return out, cache

def batchnorm_backward(dout, cache):

    dx, dgamma, dbeta = None, None, None

    x_normalized, gamma, beta, sample_mean, sample_var, x, eps = cache

    N, D = x.shape

    dx_normalized = dout * gamma       # [N,D]

    x_mu = x - sample_mean             # [N,D]

    sample_std_inv = 1.0 / np.sqrt(sample_var + eps)    # [1,D]

    dsample_var = -0.5 * np.sum(dx_normalized * x_mu, axis=0, keepdims=True) * sample_std_inv**3

    dsample_mean = -1.0 * np.sum(dx_normalized * sample_std_inv, axis=0, keepdims=True) - \

                                   2.0 * dsample_var * np.mean(x_mu, axis=0, keepdims=True)

    dx1 = dx_normalized * sample_std_inv

    dx2 = 2.0/N * dsample_var * x_mu

    dx = dx1 + dx2 + 1.0/N * dsample_mean

    dgamma = np.sum(dout * x_normalized, axis=0, keepdims=True)

    dbeta = np.sum(dout, axis=0, keepdims=True)

    return dx, dgamma, dbeta

批量归一化（spatia Batch Normalization）

我们已经看到，批量归一化是训练深度完全连接网络的非常有用的技术。批量归一化也可以用于卷积网络，但我们需要调整它一点;该修改将被称为“空间批量归一化”。
通常，批量归一化接受形状（N，D）的输入并产生形状（N，D）的输出，其中我们在小批量维度N上归一化。对于来自卷积层的数据，批归一化需要接受形状（N,C，H，W），并且产生形状（N，C，H，W）的输出，其中N维给出小容器大小，（H，W）维给出特征图的空间大小。
如果使用卷积产生特征图，则我们期望每个特征通道的统计在相同图像内的不同图像和不同位置之间相对一致。因此，空间批量归一化通过计算小批量维度N和空间维度H和W上的统计量来计算C个特征通道中的每一个的平均值和方差。

同样的：#Means should be close to zero and stds close to one

gamma, beta = np.ones(C), np.zeros(C)

代码如下，

def spatial_batchnorm_forward(x, gamma, beta, bn_param):

    N, C, H, W = x.shape

    x_new = x.transpose(0, 2, 3, 1).reshape(N*H*W, C)

    out, cache = batchnorm_forward(x_new, gamma, beta, bn_param)

    out = out.reshape(N, H, W, C).transpose(0, 3, 1, 2)

    return out, cache

def spatial_batchnorm_backward(dout, cache):

    N, C, H, W = dout.shape

    dout_new = dout.transpose(0, 2, 3, 1).reshape(N*H*W, C)

    dx, dgamma, dbeta = batchnorm_backward(dout_new, cache)

    dx = dx.reshape(N, H, W, C).transpose(0, 3, 1, 2)

    return dx, dgamma, dbeta

『cs231n』作业2选讲_通过代码理解Dropout的更多相关文章

『cs231n』作业2选讲_通过代码理解优化器
1).Adagrad一种自适应学习率算法,实现代码如下: cache += dx**2 x += - learning_rate * dx / (np.sqrt(cache) + eps) 这种方法的 ...
『cs231n』作业1选讲_通过代码理解KNN&交叉验证&SVM
通过K近邻算法探究numpy向量运算提速茴香豆的“茴”字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用 ...
『cs231n』作业3问题1选讲_通过代码理解RNN&图像标注训练
一份不错的作业3资料(含答案) RNN神经元理解单个RNN神经元行为括号中表示的是维度向前传播 def rnn_step_forward(x, prev_h, Wx, Wh, b): " ...
『cs231n』作业3问题3选讲_通过代码理解图像梯度
Saliency Maps 这部分想探究一下 CNN 内部的原理,参考论文 Deep Inside Convolutional Networks: Visualising Image Classifi ...
『cs231n』作业3问题2选讲_通过代码理解LSTM网络
LSTM神经元行为分析 LSTM 公式可以描述如下: itftotgtctht=sigmoid(Wixxt+Wihht−1+bi)=sigmoid(Wfxxt+Wfhht−1+bf)=sigmoid( ...
『cs231n』作业3问题4选讲_图像梯度应用强化
[注],本节(上节也是)的model是一个已经训练完成的CNN分类网络. 随机数图片向前传播后对目标类优化,反向优化图片本体 def create_class_visualization(target ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『cs231n』通过代码理解风格迁移
『cs231n』卷积神经网络的可视化应用文件目录 vgg16.py import os import numpy as np import tensorflow as tf from downloa ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...

随机推荐

文本框获取光标位置 ---- ctrl+enter换行
业务需求:按下enter键发送信息,按下ctrl+enter键换行下面代码是网上找的资料 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 T ...
MySQL Crash Course #08# Chapter 16. Using Different Join Types
记文档还是相当重要的! 索引假名的三个用途自交(Self Joins) 自然交(Natural Joins) Outer Joins Using Table Aliases Using alias ...
Linux中tomcat日志按日期自动分割
Linux中tomcat日志分割需要用到cronolog 附上cronolog-1.6.2.tar.gz 1. 安装cronolog tar –zxvf cronolog-1.6.2.tar.gz . ...
C#对象的new和不new的区别
new:为对象分配空间. 首先,直接声明一个变量:byte[] test;只是有了一个变量名字,而它是没有实际空间的,需要分配空间: 分配空间的方法: 1.使用new,byte[] test = ne ...
arm linux下编译库System.Net.Primitives.dll和System.Xml.XmlSerializer.dll
1.环境: /home/jello # uname -aLinux 3.10.0 #2 SMP Mon Mar 6 17:52:09 CST 2017 armv7l GNU/Linux 2.获取mo ...
JavaScript 装饰者模式（this运用）
例: function ConcreteClass() { this.performTask = function () { this.preTask(); console.log('doing so ...
jquery 之 extend的实现
function getOpt(target, obj1, obj2, obj3){ $.extend(target, obj1, obj2, obj3); return target; } var ...
Spring资源加载基础ClassLoader
1 ClassLoader工作机制 1.1 ClassLoader作用寻找类字节码文件并构造出类在JVM内部表示的组件.负责运行时查找和装入Class字节码文件 1.2 装载步骤 1.2.1 装载 ...
【TCP/IP详解卷一：协议】第9章 IP选路
推荐链接:网络地址与主机地址 9.1 引言路由选择程序(daemon),通常这是一个用户进程.在大多数的Unix系统中,大多数的路由选择程序都是路由程序和网关程序. 路由表经常被IP访问,但是它被路 ...
Kafka 及 PyKafka 的使用
1. Kafka 1. 简介 Kafka 是一种分布式的.分区的.多副本的基于发布/订阅的消息系统.它是通过 zookeeper 进行协调,常见可以用于 web/nginx 日志.访问日志.消息服务等 ...

『cs231n』作业2选讲_通过代码理解Dropout

Dropout

Batch Normalization

批量归一化（spatia Batch Normalization）

『cs231n』作业2选讲_通过代码理解Dropout的更多相关文章

随机推荐

热门专题