深度学习-InfoGAN论文理解笔记】的更多相关文章

在弄清楚InfoGAN之前,可以先理解一下变分推断目的以及在概率论中的应用与ELBO是什么,以及KL散度 https://blog.csdn.net/qy20115549/article/details/93074519 https://blog.csdn.net/qy20115549/article/details/86644192. 如果理解了变分推断,KL散度,ELBO,对于InfoGAN中的重要方法就可以很容易理解了. 这里首先看一下简单的对数推导为方便对InfoGAN文中的公式的阅读:…
尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 这是继RCNN,fast-RCNN 和 faster-RCNN之后,rbg(Ross Girshick)大神挂名的又一大作,起了一个很娱乐化的名字:YOLO.  虽然目前版本还有一些硬伤,但是解决了目前基于DL检测中一个大痛点,就是速度问题.  其增强版本GPU中能跑45fps,简化版本155fps. 论文下载:http://arxiv.org/abs/1506.02640  代码下载:https://git…
  全文转载于郭耀华-[深度学习]深入理解Batch Normalization批标准化:   文章链接Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift:发表于2015的ICML: 这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出.   Bat…
GAN存在问题 训练困难,G和D多次尝试没有稳定性,Loss无法知道能否优化,生成样本单一,改进方案靠暴力尝试 WGAN GAN的Loss函数选择不合适,使模型容易面临梯度消失,梯度不稳定,优化目标不定导致模型失败,WGAN,找到了更为合适的Loss函数,使得梯度呈线性,事实上WGAN对判别器权重进行了区间限制,使得权重控制在一定范围内,使得梯度更大概率的呈线性增长. WGAN特点 无需平衡D,G的训练组合 解决collapse model(模型崩溃)问题,保证样本多样性 结构更改简单有效 改进…
这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出. Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性.虽然有些细节处理还解释不清其理论原因,但是实践证明好用才是真的好,别忘了DL从Hinton对深层网络做Pre-Train开始就是一个经验领先于理论分析的偏经验的一门学问.本文是对论文<Batch Normalization: A…
在机器学习.深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢? 在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.04747.pdf 本文将梳理: 每个算法的梯度更新规则和缺点 为了应对这个不足而提出的下一个算法 超参数的一般设定值 几种算法的效果比较 选择哪种算法 0.梯度下降法深入理解 以下为个人总结,如有错误…
0.问题 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障.那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的. 思考一个问题:为什么传统的神经网络在训练开始之前,要对输入的数据做Normalization?原因在于神经网络学习过程本质上是为了学习数据的分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大…
http://blog.csdn.net/dinosoft/article/details/51813615 前言 对于深度学习,新手我推荐先看UFLDL,不做assignment的话,一两个晚上就可以看完.毕竟卷积.池化啥的并不是什么特别玄的东西.课程简明扼要,一针见血,把最基础.最重要的点都点出来 了. cs231n这个是一个完整的课程,内容就多了点,虽然说课程是computer vision的,但80%还是深度学习的内容.图像的工作暂时用不上,我就先略过了. 突然发现这两个课程都是斯坦福的…
论文参考:Deep Sparse Rectifier Neural Networks (很有趣的一篇paper) Part 0:传统激活函数.脑神经元激活频率研究.稀疏激活性 0.1  一般激活函数有如下一些性质: 非线性: 当激活函数是线性的,一个两层的神经网络就可以基本上逼近所有的函数.但如果激活函数是恒等激活函数的时候,即f(x)=x,就不满足这个性质,而且如果MLP(多层感知机)使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的: 可微性: 当优化方法是基于梯度的时候,就体现了…
训练方法DCGAN 的训练方法跟GAN 是一样的,分为以下三步: (1)for k steps:训练D 让式子[logD(x) + log(1 - D(G(z)) (G keeps still)]的值达到最大 (2)保持D 不变,训练G 使式子[logD(G(z))]的值达到最大 (3)重复step(1)和step(2)直到G 与D 达到纳什均衡 Alec Radford等人于2016年初提出DCGAN以改善GAN的可训练性.他们认为传统GAN之所以不稳定,一个原因便是判别器D搭载的是初级的多层…