ReLU上的花样

CNN出现以来，感觉在各个地方，即便是非常小的地方都有点可以挖掘。比如ReLU。

ReLU的有效性体现在两个方面：

克服梯度消失的问题
加快训练速度

而这两个方面是相辅相成的，因为克服了梯度消失问题，所以训练才会快。

ReLU的起源，在这片博文里，对ReLU的起源的介绍已经很详细了，包括如何从生物神经衍生出来，如何与稀疏性进行关联等等。

其中有一段特别精彩的话我引用在下面：

几十年的机器学习发展中，我们形成了这样一个概念：非线性激活函数要比线性激活函数更加先进。

尤其是在布满Sigmoid函数的BP神经网络，布满径向基函数的SVM神经网络中，往往有这样的幻觉，非线性函数对非线性网络贡献巨大。

该幻觉在SVM中更加严重。核函数的形式并非完全是SVM能够处理非线性数据的主力功臣（支持向量充当着隐层角色）。

那么在深度网络中，对非线性的依赖程度就可以缩一缩。另外，在上一部分提到，稀疏特征并不需要网络具有很强的处理线性不可分机制。

综合以上两点，在深度学习模型中，使用简单、速度快的线性激活函数可能更为合适。

而本文要讲的，则是ReLU上的改进，所谓麻雀虽小，五脏俱全，ReLU虽小，但也是可以改进的。

ReLU的种类

ReLU的区分主要在负数端，根据负数端斜率的不同来进行区分，大致如下图所示。

普通的ReLU负数端斜率是0，Leaky ReLU则是负数端有一个比较小的斜率，而PReLU则是在后向传播中学习到斜率。而Randomized Leaky ReLU则是使用一个均匀分布在训练的时候随机生成斜率，在测试的时候使用均值斜率来计算。

效果

其中，NDSB数据集是Kaggle的比赛，而RReLU正是在这次比赛中崭露头角的。

通过上述结果，可以看到四点：

对于leaky ReLU来说，如果斜率很小，那么与ReLU并没有大的不同，当斜率大一些时，效果就好很多。
在训练集上，PReLU往往能达到最小的错误率，说明PReLU容易过拟合。
在NSDB数据集上RReLU的提升比cifar10和cifar100上的提升更加明显，而NSDB数据集比较小，从而可以说明，RReLU在与过拟合的对抗中更加有效
对于RReLU来说，还需要研究一下随机化得斜率是怎样影响训练和测试过程的。

参考文献

[1]. Xu B, Wang N, Chen T, et al. Empirical evaluation of rectified activations in convolutional network[J]. arXiv preprint arXiv:1505.00853, 2015.

ReLU、LReLU、PReLU、CReLU、ELU、SELU

2018年01月22日 22:25:34

阅读数：3632

- ReLU
- LReLU
- PReLU
- CReLU
- ELU
- SELU

ReLU

tensorflow中：tf.nn.relu(features, name=None)

LReLU

(Leaky-ReLU)

其中aiai是固定的。ii表示不同的通道对应不同的aiai.
tensorflow中：tf.nn.leaky_relu(features, alpha=0.2, name=None)

PReLU

其中aiai是可以学习的的。如果ai=0ai=0，那么 PReLU 退化为ReLU；如果 aiai是一个很小的固定值（如ai=0.01ai=0.01），则 PReLU 退化为 Leaky ReLU（LReLU）。
PReLU 只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同 channels 使用相同的aiai时，参数就更少了。BP 更新aiai时，采用的是带动量的更新方式（momentum）。
tensorflow中:没找到啊!

CReLU

（Concatenated Rectified Linear Units）

tensorflow中：tf.nn.crelu(features, name=None)

ELU

其中α是一个可调整的参数，它控制着ELU负值部分在何时饱和。
右侧线性部分使得ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零，所以收敛速度更快
tensorflow中：tf.nn.elu(features, name=None)

SELU

经过该激活函数后使得样本分布自动归一化到0均值和单位方差(自归一化，保证训练过程中梯度不会爆炸或消失，效果比Batch Normalization 要好)
其实就是ELU乘了个lambda，关键在于这个lambda是大于1的。以前relu，prelu，elu这些激活函数，都是在负半轴坡度平缓，这样在activation的方差过大的时候可以让它减小，防止了梯度爆炸，但是正半轴坡度简单的设成了1。而selu的正半轴大于1，在方差过小的的时候可以让它增大，同时防止了梯度消失。这样激活函数就有一个不动点，网络深了以后每一层的输出都是均值为0方差为1。

tensorflow中：tf.nn.selu(features, name=None)

Relu的理解的更多相关文章

【深度学习】深入理解ReLU(Rectifie Linear Units)激活函数
论文参考:Deep Sparse Rectifier Neural Networks (很有趣的一篇paper) Part 0:传统激活函数.脑神经元激活频率研究.稀疏激活性 0.1 一般激活函数有 ...
caffe_手写数字识别Lenet模型理解
这两天看了Lenet的模型理解,很简单的手写数字CNN网络,90年代美国用它来识别钞票,准确率还是很高的,所以它也是一个很经典的模型.而且学习这个模型也有助于我们理解更大的网络比如Imagenet等等 ...
Deep learning：四十五(maxout简单理解)
maxout出现在ICML2013上,作者Goodfellow将maxout和dropout结合后,号称在MNIST, CIFAR-10, CIFAR-100, SVHN这4个数据上都取得了start ...
深度神经网络结构以及Pre-Training的理解
Logistic回归.传统多层神经网络 1.1 线性回归.线性神经网络.Logistic/Softmax回归线性回归是用于数据拟合的常规手段,其任务是优化目标函数:$h(\theta )=\thet ...
深度学习研究理解5：Visualizing and Understanding Convolutional Networks（转）
Visualizing and understandingConvolutional Networks 本文是Matthew D.Zeiler 和Rob Fergus于(纽约大学)13年撰写的论文,主 ...
机器学习：从编程的角度理解BP神经网络
1.简介(只是简单介绍下理论内容帮助理解下面的代码,如果自己写代码实现此理论不够) 1) BP神经网络是一种多层网络算法,其核心是反向传播误差,即: 使用梯度下降法(或其他算法),通过反向传播来不断调 ...
【深度学习】深入理解Batch Normalization批标准化
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normaliz ...
DeconvNet 论文阅读理解
学习语义分割反卷积网络DeconvNet 一点想法:反卷积网络就是基于FCN改进了上采样层,用到了反池化和反卷积操作,参数量2亿多,非常大,segnet把两个全连接层去掉,效果也能很好,显著减少了参数 ...
通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...

随机推荐

android:3D垂直翻转动画-FlipAnimation
需求对ImageView进行相似于翻纸牌的动画解决各种Animator的组合第一步动画: 动画代码文件1,card_flip_left_out.xml <? xml version=&q ...
分布式缓存Memcache和Redis
引言针对于如今计算机的CPU和网络设施,相应用程序来说,运行效率的瓶颈.已经不是代码的长度(实现同一个功能)和带宽了,而是,代码訪问资源的过程.即:让我们的程序慢下来的罪魁祸首就是IO操作. 程序从 ...
设置Sysctl.conf用以提高Linux的性能(最完整的sysctl.conf优化方案)
Sysctl是一个允许您改变正在运行中的Linux系统的接口.它包含一些 TCP/IP 堆栈和虚拟内存系统的高级选项, 这可以让有经验的管理员提高引人注目的系统性能.用sysctl可以读取设置超过五百 ...
（转）Windows7安装OpenSSH
(转自:http://blog.sina.com.cn/s/blog_4a0a8b5d01015b0n.html) OpenSSH很老了,所以... 最开始只是因为openSSH启动不了,才用的Mob ...
解决kafka集群由于默认的__consumer_offsets这个topic的默认的副本数为1而存在的单点故障问题
抛出问题: __consumer_offsets这个topic是由kafka自动创建的,默认50个,但是都存在一台kafka服务器上,这是不是就存在很明显的单点故障?经测试,如果将存储consumer ...
Lintcode: First Bad Version 解题报告
First Bad Version http://lintcode.com/en/problem/first-bad-version The code base version is an integ ...
Nvidia显卡安装驱动
首先要知道需要安装哪个类型的显卡驱动,可以使用如下指令查看 sudo add-apt-repository ppa:graphics-drivers在#current那一栏中找到显卡驱动型号,使用的是 ...
nginx动态配置及服务发现那些事
Reference: http://xiaorui.cc/2016/10/16/nginx%E5%8A%A8%E6%80%81%E9%85%8D%E7%BD%AE%E5%8F%8A%E6%9C%8D% ...
div模态显示内容
业务需要,上传的图片,本地显示大图: 模态代码: <div onclick="hidebigimg()" class = "bg-model" style ...
Linux 下MongoDb的安装
MongoDb在linux可以说是非常的简单的. 先下载: curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tg ...

Relu的理解