1 什么是激活函数？

激活函数，并不是去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来（保留特征，去除一些数据中是的冗余），这是神经网络能解决非线性问题关键。

目前知道的激活函数有如下几个：sigmoid,tanh，ReLu,softmax。

simoid函数也称S曲线：f(x)=11+e−x

tanh:f(x)=tanh(x)

ReLU：f(x)=max(x,0)

softmax:f(x)=log(1+exp(x))

2 神经网络中为什么要使用激活函数？

激活函数是用来加入非线性因素的，因为线性模型的表达力不够

这句话字面的意思很容易理解，但是在具体处理图像的时候是什么情况呢？我们知道在神经网络中，对于图像，我们主要采用了卷积的方式来处理，也就是对每个像素点赋予一个权值，这个操作显然就是线性的。但是对于我们样本来说，不一定是线性可分的，为了解决这个问题，我们可以进行线性变化，或者我们引入非线性因素，解决线性模型所不能解决的问题。

这里插一句，来比较一下上面的那些激活函数，因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。

这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来，但有是，在特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。

还有一个东西要注意，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，否则激活后的值都会进入平坦区，使隐层的输出全部趋同，但是 ReLU 并不需要输入归一化来防止它们达到饱和。

构建稀疏矩阵，也就是稀疏性，这个特性可以去除数据中的冗余，最大可能保留数据的特征，也就是大多数为0的稀疏矩阵来表示。

其实这个特性主要是对于Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。

所以我们可以看到目前大部分的卷积神经网络中，基本上都是采用了ReLU 函数。

摘自：http://blog.csdn.net/huahuazhu/article/details/74188288

神经网络中如果不加入激活函数，其一定程度可以看成线性表达，最后的表达能力不好，如果加入一些非线性的激活函数，整个网络中就引入了非线性部分，增加了网络的表达能力。目前比较流行的激活函数主要分为以下7种：

1.sigmoid

2.tanh

3.ReLu

4.Leaky ReLu

5.PReLu

6.RReLu

7 Maxout

总结

参考文献：
[ReLu]:Rectifier Nonlinearities Improve Neural Network Acoustic Models
[PRelu]:Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification

- ReLU
- LReLU
- PReLU
- CReLU
- ELU
- SELU

ReLU

tensorflow中：tf.nn.relu(features, name=None)

LReLU

(Leaky-ReLU)

其中ai

是固定的。i表示不同的通道对应不同的ai

.
tensorflow中：tf.nn.leaky_relu(features, alpha=0.2, name=None)

PReLU

其中ai

是可以学习的的。如果ai=0，那么 PReLU 退化为ReLU；如果 ai是一个很小的固定值（如ai=0.01），则 PReLU 退化为 Leaky ReLU（LReLU）。
PReLU 只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同 channels 使用相同的ai时，参数就更少了。BP 更新ai

时，采用的是带动量的更新方式（momentum）。
tensorflow中:没找到啊!

CReLU

（Concatenated Rectified Linear Units）

tensorflow中：tf.nn.crelu(features, name=None)

ELU

其中α是一个可调整的参数，它控制着ELU负值部分在何时饱和。
右侧线性部分使得ELU能够缓解梯度消失，而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零，所以收敛速度更快
tensorflow中：tf.nn.elu(features, name=None)

SELU

经过该激活函数后使得样本分布自动归一化到0均值和单位方差(自归一化，保证训练过程中梯度不会爆炸或消失，效果比Batch Normalization 要好)
其实就是ELU乘了个lambda，关键在于这个lambda是大于1的。以前relu，prelu，elu这些激活函数，都是在负半轴坡度平缓，这样在activation的方差过大的时候可以让它减小，防止了梯度爆炸，但是正半轴坡度简单的设成了1。而selu的正半轴大于1，在方差过小的的时候可以让它增大，同时防止了梯度消失。这样激活函数就有一个不动点，网络深了以后每一层的输出都是均值为0方差为1。

tensorflow中：tf.nn.selu(features, name=None)

神经网络中的激活函数——加入一些非线性的激活函数，整个网络中就引入了非线性部分，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，但是 ReLU 并不需要输入归一化的更多相关文章

深度学习的激活函数：sigmoid、tanh、ReLU 、Leaky Relu、RReLU、softsign 、softplus、GELU
深度学习的激活函数 :sigmoid.tanh.ReLU .Leaky Relu.RReLU.softsign .softplus.GELU 2019-05-06 17:56:43 wamg潇潇阅 ...
激活函数Sigmoid、Tanh、ReLu、softplus、softmax
原文地址:https://www.cnblogs.com/nxf-rabbit75/p/9276412.html 激活函数: 就是在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端. 常见 ...
激活函数--（Sigmoid，tanh，Relu，maxout）
Question? 激活函数是什么? 激活函数有什么用? 激活函数怎么用? 激活函数有哪几种?各自特点及其使用场景? 1.激活函数 1.1激活函数是什么? 激活函数的主要作用是提供网络的非线性建模能力 ...
激活函数的比较，sigmoid，tanh，relu
1. 什么是激活函数如下图,在神经元中,输入inputs通过加权.求和后,还被作用了一个函数.这个函数就是激活函数Activation Function 2. 为什么要用激活函数如果不用激活函数, ...
深度学习基础系列（三）| sigmoid、tanh和relu激活函数的直观解释
常见的激活函数有sigmoid.tanh和relu三种非线性函数,其数学表达式分别为: sigmoid: y = 1/(1 + e-x) tanh: y = (ex - e-x)/(ex + e-x) ...
3.键盘输入10个数，放到数组中，(1)去除该数组中大于10的数 (2)将该数组中的数字写入到本地文件number.txt中
package cn.it.text; import java.io.FileWriter; import java.io.IOException; import java.util.Scanner; ...
深度网络中的Tricks
数据增强(Data augmentation) 预处理(Pre-processing) 初始化(Initializations) 训练中的Tricks 激活函数(Activation function ...
『TensorFlow』生成式网络中的图片预处理
简介这里的生成式网络是广义的生成式,不仅仅指gan网络,还有风格迁移中的类自编码器网络,以及语义分割中的类自编码器网络,因为遇到次数比较多,所以简单的记录一下. 背景 1.像素和数字图像处理目标一 ...
CVPR2020：点云分析中三维图形卷积网络中可变形核的学习
CVPR2020:点云分析中三维图形卷积网络中可变形核的学习 Convolution in the Cloud: Learning Deformable Kernels in 3D Graph Con ...

随机推荐

安卓学习之学生签到APP（一）
一.学生定位签到页面具体实现步骤: 1.1 高德地图申请key 1.创建新应用进入高德地图api控制台,创建一个新应用.如果您之前已经创建过应用,可直接跳过这个步骤. 2.添加新Key 在创建的应 ...
Eclipse之向前快进，向后快退
在已经写好的代码上进行修改,存在代码快需要向前快进,向后快退的情况. 选中代码块,然后右击,有Shift Right, Shift Left
GrepWin:Win7下的文本替换工具
工作环境退回到Win7之后,内容查找功能非常不给力,推荐一个文本内容查找工具grepWin. Win7下的文本查找/替换工具: grepWin
WebGL画点程序v1
本文程序实现画一个点的任务,如下图.其中,点的位置直接给定("硬编码")在顶点着色器中. 整个程序包含两个文件,分别是: 1. HelloPoint1.html <!DOCT ...
appium处理app与web页面的转换
测微信页面的时候使用谷歌app,进入微信页面的链接 def setUp(self): print("set up env for android testing...") se ...
（转）C#开发微信门户及应用(2)--微信消息的处理和应答
http://www.cnblogs.com/wuhuacong/p/3614175.html 微信应用如火如荼,很多公司都希望搭上信息快车,这个是一个商机,也是一个技术的方向,因此,有空研究下.学习 ...
kerberos认证原理---讲的非常细致，易懂
前几天在给人解释Windows是如何通过Kerberos进行Authentication的时候,讲了半天也别把那位老兄讲明白,还差点把自己给绕进去.后来想想原因有以下两点:对于一个没有完全不了解Ker ...
PAT_A1135#Is It A Red-Black Tree
Source: PAT A1135 Is It A Red-Black Tree (30 分) Description: There is a kind of balanced binary sear ...
C语言中时钟编程
目录 C语言中时钟编程 1. 文章目的 2.基本概念 2.1 UTC时间 2.2 UNIX纪元时间 2.3 格林威治时间 (GMT) 3.时间转换 3.1 asctime函数 3.2 ctime函数 ...
移动端配置rem
<script> function Rem() { var docEl = document.documentElement, oSize = docEl.clientWidth / 7. ...

神经网络中的激活函数——加入一些非线性的激活函数，整个网络中就引入了非线性部分，sigmoid 和 tanh作为激活函数的话，一定要注意一定要对 input 进行归一话，但是 ReLU 并不需要输入归一化