Relu的理解

【Relu的理解】的更多相关文章

ReLU上的花样 CNN出现以来,感觉在各个地方,即便是非常小的地方都有点可以挖掘.比如ReLU. ReLU的有效性体现在两个方面: 克服梯度消失的问题加快训练速度而这两个方面是相辅相成的,因为克服了梯度消失问题,所以训练才会快. ReLU的起源,在这片博文里,对ReLU的起源的介绍已经很详细了,包括如何从生物神经衍生出来,如何与稀疏性进行关联等等. 其中有一段特别精彩的话我引用在下面: 几十年的机器学习发展中,我们形成了这样一个概念:非线性激活函数要比线性激活函数更加先进. 尤其是在布满S…

【深度学习】深入理解ReLU(Rectifie Linear Units)激活函数

论文参考:Deep Sparse Rectifier Neural Networks (很有趣的一篇paper) Part 0:传统激活函数.脑神经元激活频率研究.稀疏激活性 0.1 一般激活函数有如下一些性质: 非线性: 当激活函数是线性的,一个两层的神经网络就可以基本上逼近所有的函数.但如果激活函数是恒等激活函数的时候,即f(x)=x,就不满足这个性质,而且如果MLP(多层感知机)使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的: 可微性: 当优化方法是基于梯度的时候,就体现了…

caffe_手写数字识别Lenet模型理解

这两天看了Lenet的模型理解,很简单的手写数字CNN网络,90年代美国用它来识别钞票,准确率还是很高的,所以它也是一个很经典的模型.而且学习这个模型也有助于我们理解更大的网络比如Imagenet等等. 我这里主要是对网络配置文件做了相关注释,没时间解释了,上车:http://pan.baidu.com/s/1jH4HbCy ,密码:5gkn 参考博客:http://blog.csdn.net/bea_tree/article/details/51601197 现在来大致说一下Lenet的结构…

Deep learning：四十五(maxout简单理解)

maxout出现在ICML2013上,作者Goodfellow将maxout和dropout结合后,号称在MNIST, CIFAR-10, CIFAR-100, SVHN这4个数据上都取得了start-of-art的识别率. 从论文中可以看出,maxout其实一种激发函数形式.通常情况下,如果激发函数采用sigmoid函数的话,在前向传播过程中,隐含层节点的输出表达式为: 其中W一般是2维的,这里表示取出的是第i列,下标i前的省略号表示对应第i列中的所有行.但如果是maxout激发函数,则其隐含…

深度神经网络结构以及Pre-Training的理解

Logistic回归.传统多层神经网络 1.1 线性回归.线性神经网络.Logistic/Softmax回归线性回归是用于数据拟合的常规手段,其任务是优化目标函数:$h(\theta )=\theta+\theta_{1}x_{1}+\theta_{2}x_{2}+....\theta_{n}x_{n}$ 线性回归的求解法通常为两种: ①解优化多元一次方程(矩阵)的传统方法,在数值分析里通常被称作”最小二乘法",公式$\theta=(X^{T}X)^{-1}X^{T}Y$ ②迭代法:有一阶导数…

深度学习研究理解5：Visualizing and Understanding Convolutional Networks（转）

Visualizing and understandingConvolutional Networks 本文是Matthew D.Zeiler 和Rob Fergus于(纽约大学)13年撰写的论文,主要通过Deconvnet(反卷积)来可视化卷积网络,来理解卷积网络,并调整卷积网络:本文通过Deconvnet技术,可视化Alex-net,并指出了Alex-net的一些不足,最后修改网络结构,使得分类结果提升. 摘要: CNN已经获得很好的结果,但是并没有明确的理解为什么CNN会表现的这么好,或者…

机器学习：从编程的角度理解BP神经网络

1.简介(只是简单介绍下理论内容帮助理解下面的代码,如果自己写代码实现此理论不够) 1) BP神经网络是一种多层网络算法,其核心是反向传播误差,即: 使用梯度下降法(或其他算法),通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小. BP神经网络模型拓扑结构包括输入层(input).隐藏层(hidden layer)和输出层(output layer),每层包含多个神经元. 2)BP神经网络示例图上图就是一个简单的三层BP神经网络.网络共有6个单元,O0用于表示阈值,O1.O2为输…

【深度学习】深入理解Batch Normalization批标准化

这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性.虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问.本文是对论文<Batch Normalization: A…

DeconvNet 论文阅读理解

学习语义分割反卷积网络DeconvNet 一点想法:反卷积网络就是基于FCN改进了上采样层,用到了反池化和反卷积操作,参数量2亿多,非常大,segnet把两个全连接层去掉,效果也能很好,显著减少了参数,只有290万,提升了性能摘要提出了一个创新的语义分割算法,反卷积网络.网络前几层用VGG16的结构.反卷积网络由反卷积层和反池化层组成,他们来实现像素级别的语义分割.我们把网络应用于输入图像得到每个结果,再将所有结果组合起来构成最终的语义分割图.这个方法可以降低现有的基于组合深度卷积网络和类别…

通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构

catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visualizing high-dimensional input dataset - 输入样本内隐含的空间结构 . Example : Word Embeddings in NLP - text word文本词语串内隐含的空间结构 . Example : Paragraph Vectors in NLP…