[Neural Networks] Dropout阅读笔记】的更多相关文章

多伦多大学Hinton组 http://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf 一.目的 降低overfitting的风险 二.原理 在网络的BP迭代训练过程中,每一次迭代的网络都结构不同(用dropout对网络剪枝,得到thinned网络),样本也不同(因为是SGD,每次一个样本). 生物学解释(有性繁殖):从生物学角度而言,dropout能够提高每个神经元的个体鲁棒性,使得其有更强的自我工作能力,以及与任意随机的其他神经元的…
李飞飞徒弟Karpathy的著名博文The Unreasonable Effectiveness of Recurrent Neural Networks阐述了RNN(LSTM)的各种magic之处,并提供code实现简单的词生成. 原文地址;http://karpathy.github.io/2015/05/21/rnn-effectiveness/ Recurrent Neural Networks sequence Vanilla Neural Networks (and also Con…
题目翻译:学习 local feature descriptors 使用 triplets 还有浅的卷积神经网络.读罢此文,只觉收获满满,同时另外印象最深的也是一个浅(文章中会提及)字. 1 Contribution 这篇论文主要做的贡献有: 提出了一种复杂度更小的triplets,更浅,计算度复杂小,表现也很好. 并且借助一种 in-triplet mining的训练方法,降低了挖掘hard negatives的复杂度提高了表现. 论文还介绍了两种不同的loss function在不同的任务下…
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week2 Neural Networks Basics 2.1 Logistic Regression as a Neutral Network 2.1.1 Binary Classification 二分类 逻辑回归是一个用于二分类(binary classification)的算法.首先我们从一个问题开始说起,这里有一个二分类问题的例子,假如你有一张图片作为输入,比…
论文题目<Deep Feature Extraction and Classification of Hyperspectral Images Based on Convolutional Neural Networks> 论文作者:Y ushi Chen, Member , IEEE, Hanlu Jiang, Chunyang Li, Xiuping Jia, Senior Member , IEEE, and Pedram Ghamisi, Member , IEEE 论文发表年份:20…
第一周 循环序列模型(Recurrent Neural Networks) 1.1 为什么选择序列模型?(Why Sequence Models?) 1.2 数学符号(Notation) 这个输入数据是 9 个单词组成的序列,所以会有 9 个特征集和来表示这 9 个 单词,并按序列中的位置进行索引,用\(…
论文下载 作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列.此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列(下文简称源序列)转化为特定维度的向量,然后另一个深层LSTM将此向量解码成相应的另一语言序列(下文简称目标序列).我个人理解是,假设要将中文翻译成法语,那么首先将中文作为输入,编码成英语,然后再将英语解码成法语.这种模型与基于短语的统计机器翻译(Static Machine Translation…
1. 优化: 1.1 随机梯度下降法(Stochasitc Gradient Decent, SGD)的问题: 1)对于condition number(Hessian矩阵最大和最小的奇异值的比值)很大的loss function,一个方向梯度变化明显,另一个方向梯度变化很缓慢,SGD在优化过程中会震荡着下降,导致优化很慢.深度学习的网络会有上百万甚至更多的参数需要优化,在这个上百万维的空间里,更容易出现各个维度梯度变化差别很大的问题. 2)陷落在局部最小点或者鞍点(saddle point).…
1. 激活函数: 1)Sigmoid,σ(x)=1/(1+e-x).把输出压缩在(0,1)之间.几个问题:(a)x比较大或者比较小(比如10,-10),sigmoid的曲线很平缓,导数为0,在用链式法则的时候,后一层传回来的导数乘以sigmoid的导数也是0了,换句话说,对于sigmoid饱和的区域后一层的导数传不到前面去了.(b)输出永远为正,即下一层的输入永远为正,我们希望输入的均值为0.(c)exp还是稍微有点难计算. 2)tanh(x),输出压缩在[-1,+1]之间,比sigmoid的进…
这是一篇关于皮肤癌分类的文章,核心就是分类器,由斯坦福大学团队发表,居然发到了nature上,让我惊讶又佩服,虽然在方法上没什么大的创新,但是论文本身的工作却意义重大,并且这篇17年见刊的文章,引用量已经达到1300多,让人佩服,值得学习. [出发点]现有的皮肤癌分类系统由于数据量不够,同时只针对标准化的图像如皮肤镜图像和组织图像,通用性不够,还难以媲美医生的水平,也就是说不能投入实际使用 [论文核心]利用inceptionv3训练12万张图片,对皮肤癌的诊断达到可媲美皮肤科医生的水平 [论文贡…