激活函数（relu，prelu，elu，+BN）对比on cifar10

可参考上一篇：

激活函数 ReLU、LReLU、PReLU、CReLU、ELU、SELU 的定义和区别

一．理论基础

1.1激活函数

1.2 elu论文（FAST AND ACCURATE DEEP NETWORK LEARNING BY

EXPONENTIAL LINEAR UNITS (ELUS)）

1.2.1 摘要

论文中提到，elu函数可以加速训练并且可以提高分类的准确率。它有以下特征：

1）elu由于其正值特性，可以像relu,lrelu,prelu一样缓解梯度消失的问题。

2）相比relu，elu存在负值，可以将激活单元的输出均值往0推近，达到

batchnormlization的效果且减少了计算量。（输出均值接近0可以减少偏移效应进而使梯

度接近于自然梯度。）

3）Lrelu和prelu虽然有负值存在，但是不能确保是一个噪声稳定的去激活状态。

4）Elu在负值时是一个指数函数，对于输入特征只定性不定量。

1.2.2.bias shift correction speeds up learning

为了减少不必要的偏移移位效应，做出如下改变：（i）输入单元的激活可以

以零为中心，或（ii）可以使用具有负值的激活函数。我们介绍一个新的

激活函数具有负值，同时保持正参数的特性，即elus。

1.2.4实验

作者把elu函数用于无监督学习中的autoencoder和有监督学习中的卷积神经网络；

elu与relu，lrelu，SReLU做对比实验；数据集选择mnist，cifar10，cifar100.

2ALL-CNN for cifar-10

2.1结构设计

ALL-CNN结构来自论文（STRIVING FOR SIMPLICITY:

THE ALL CONVOLUTIONAL NET）主要工作是把pool层用stride=2的卷积来代替，提出了一些全卷积网络架构，kernel=3时效果最好，最合适之类的，比较好懂，同时效果也不错，比原始的cnn效果好又没有用到一些比较大的网络结构如resnet等。

附上：

Lrelu实现：

def lrelu(x, leak=0.2, name="lrelu"):

return tf.maximum(x, leak * x)

Prelu实现：

def parametric_relu(_x):

alphas = tf.get_variable('alpha', _x.get_shape()[-1],

initializer=tf.constant_initializer(0.25),

dtype = tf.float32

)

pos = tf.nn.relu(_x)

neg = alphas * (_x - abs(_x)) * 0.5

print(alphas)

return pos + neg

BN实现：

def batch_norm(x, n_out,scope='bn'):

  """

  Batch normalization on convolutional maps.

  Args:

    x: Tensor, 4D BHWD input maps

    n_out: integer, depth of input maps

    phase_train: boolean tf.Variable, true indicates training phase

    scope: string, variable scope

  Return:

    normed: batch-normalized maps

  """

  with tf.variable_scope(scope):

    beta = tf.Variable(tf.constant(0.0, shape=[n_out]),

      name='beta', trainable=True)

    gamma = tf.Variable(tf.constant(1.0, shape=[n_out]),

      name='gamma', trainable=True)

    tf.add_to_collection('biases', beta)

    tf.add_to_collection('weights', gamma)

    batch_mean, batch_var = tf.nn.moments(x, [0,1,2], name='moments')

    ema = tf.train.ExponentialMovingAverage(decay=0.99)

    def mean_var_with_update():

      ema_apply_op = ema.apply([batch_mean, batch_var])

      with tf.control_dependencies([ema_apply_op]):

       return tf.identity(batch_mean), tf.identity(batch_var)

    #mean, var = control_flow_ops.cond(phase_train,

    # mean, var = control_flow_ops.cond(phase_train,

    #   mean_var_with_update,

    #   lambda: (ema.average(batch_mean), ema.average(batch_var)))

    mean, var = mean_var_with_update()

    normed = tf.nn.batch_normalization(x, mean, var,

      beta, gamma, 1e-3)

  return normed

在cifar10 上测试结果如下：

以loss所有结果如下：relu+bn>elu>prelu>elubn>relu

所有的测试准确率如下

relu+bn组合准确率最高，relu+bn>elu>prelu>elubn>relu

可见elu在激活函数里表现最好，但是它不必加BN，这样减少了BN的计算量。

3.ALL-CNN for cifar-100

cifar100数据集

CIFAR-100 python version,下载完之后解压，在cifar-100-python下会出现：meta,test和train

三个文件，他们都是python用cPickle封装的pickled对象

解压：tar -zxvf xxx.tar.gz

cifar-100-python/

cifar-100-python/file.txt~

cifar-100-python/train

cifar-100-python/test

cifar-100-python/meta

def unpickle(file):

import cPickle

fo = open(file, ‘rb’)

dict = cPickle.load(fo)

fo.close()

return dict

通过以上代码可以将其转换成一个dict对象，test和train的dict中包含以下元素：

data——一个nx3072的numpy数组,每一行都是(32,32,3)的RGB图像,n代表图像个数

coarse_labels——一个范围在0-19的包含n个元素的列表,对应图像的大类别

fine_labels——一个范围在0-99的包含n个元素的列表,对应图像的小类别

而meta的dict中只包含fine_label_names,第i个元素对应其真正的类别。

二进制版本（我用的）：

<1 x coarse label><1 x fine label><3072 x pixel>

…

<1 x coarse label><1 x fine label><3072 x pixel>

网络结构直接在cifar10的基础上输出100类即可，只对cifar100的精细标签100个进行分类任务，因此代码里取输入数据集第二个值做为标签。（tensorflow的cifar10代码）

label_bytes =2 # 2 for CIFAR-100

#取第二个标签100维

result.label = tf.cast(

tf.strided_slice(record_bytes, [1], [label_bytes]), tf.int32)

在all CNN 9层上，大约50k步，relu+bn组合测试的cifar100 test error为0.36

PS:

Activation Function Cheetsheet

来源：

https://blog.csdn.net/m0_37561765/article/details/78398098

https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6

激活函数（relu，prelu，elu，+BN）对比on cifar10的更多相关文章

激活函数ReLU、Leaky ReLU、PReLU和RReLU
“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”. sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”.使用“非饱和激活函数”的优势在于两点: 1 ...
[转]激活函数ReLU、Leaky ReLU、PReLU和RReLU
“激活函数”能分成两类——“饱和激活函数”和“非饱和激活函数”. sigmoid和tanh是“饱和激活函数”,而ReLU及其变体则是“非饱和激活函数”.使用“非饱和激活函数”的优势在于两点: 1 ...
激活函数(ReLU, Swish, Maxout)
神经网络中使用激活函数来加入非线性因素,提高模型的表达能力. ReLU(Rectified Linear Unit,修正线性单元) 形式如下: \[ \begin{equation} f(x)= \b ...
【机器学习】激活函数(ReLU, Swish, Maxout)
https://blog.csdn.net/ChenVast/article/details/81382939 神经网络中使用激活函数来加入非线性因素,提高模型的表达能力. ReLU(Rectifie ...
ReLU 和sigmoid 函数对比
详细对比请查看:http://www.zhihu.com/question/29021768/answer/43517930 . 激活函数的作用: 是为了增加神经网络模型的非线性.否则你想想,没有激活 ...
ReLU 和sigmoid 函数对比以及droupout
参考知乎的讨论:https://www.zhihu.com/question/29021768 1.计算简单,反向传播时涉及除法,sigmod求导要比Relu复杂: 2.对于深层网络,sigmod反向 ...
caffe Python API 之激活函数ReLU
import sys import os sys.path.append("/projects/caffe-ssd/python") import caffe net = caff ...
Difference between ReLU、LReLU、PReLU、CReLU、ELU、SELU
激活函数 ReLU.LReLU.PReLU.CReLU.ELU.SELU 的定义和区别 ReLU tensorflow中:tf.nn.relu(features, name=None) LReLU ...
神经网络中的激活函数具体是什么？为什么ReLu要好过于tanh和sigmoid function?（转）
为什么引入激活函数? 如果不用激励函数(其实相当于激励函数是f(x) = x),在这种情况下你每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层 ...

随机推荐

c++之sleep函数
c++之sleep函数 c++中使用sleep函数需要导入第三方库,标准库中没有该函数实现. 我们导入window.h使用Sleep()方法,注意:第一个S要大写,括号中的表示的整数倍的毫秒 Slee ...
css 题目笔记（本文收集了一些个人觉得比较有意思的css题目，欢迎大家给出自己的解答）
1.本文收集了一些个人觉得比较有意思的css题目,欢迎大家给出自己的解答 P标签的最大宽度不可以大于H2标签文字宽度的10% 这里应该是P标签的最大宽度由前面的匿名内联元素宽度(就是大字号文字宽度)决 ...
ajax实现快递单号查询
效果:(代码写的有点乱,自行修改就可以了) 源码: index.php <!DOCTYPE html> <html lang="en"> <head& ...
APACHE 禁止通过IP直接访问
若是开通了虚拟主机,则需要在httpd-vhosts.conf中修改配置如下:若没有开通虚拟主机,则可以直接在httpd.conf文件最后面,加入以下代码: NameVirtualHost XXX.X ...
PHP CURL 伪造IP和来路
//随机IP function Rand_IP(){ $ip2id= round(rand(, ) / ); //第一种方法,直接生成 $ip3id= round(rand(, ) / ); $ip4 ...
Fiddler Web Debugger的截断功能（图文详解）
不多说,直接上干货! Fiddler的重头好戏是截断数据包,首先需要设置截取数据包的类型,依次打开菜单“Rules->automatic breakpoints”,可以选择“before req ...
一款高效视频播放控件的设计思路（c# WPF版）
因工作的需要,开发了一款视频播放程序.期间也经历许多曲折,查阅了大量资料,经过了反复测试,终于圆满完成了任务. 我把开发过程中的一些思路.想法写下来,以期对后来者有所帮助. 视频播放的本质就是连续的 ...
机器学习--boosting家族之Adaboost算法
最近在系统研究集成学习,到Adaboost算法这块,一直不能理解,直到看到一篇博文,才有种豁然开朗的感觉,真的讲得特别好,原文地址是(http://blog.csdn.net/guyuealian/a ...
Linux-(which,whereis,locate,find)
我们经常在linux要查找某个文件,但不知道放在哪里了,可以使用下面的一些命令来搜索: which 查看可执行文件的位置. whereis 查看文件的位置. locate 配合数据库查看文件位置 ...
ThreadPool线程池的关注点
public class TestThreadPool { //线程池维护线程的最少数量 private static final int COREPOOLSIZE = 2; //线程池维护线程的最大 ...

激活函数（relu，prelu，elu，+BN）对比on cifar10

激活函数（relu，prelu，elu，+BN）对比on cifar10的更多相关文章

随机推荐

热门专题