Wasserstein距离 和 Lipschitz连续】的更多相关文章

EMD(earth mover distance)距离: 在计算机科学与技术中,地球移动距离(EMD)是一种在D区域两个概率分布距离的度量,就是被熟知的Wasserstein度量标准.不正式的说,如果两个分布被看作在D区域上两种不同方式堆积一定数量的山堆,那么EMD就是把一堆变成另一堆所需要移动单位小块最小的距离之和. 上述的定义如果两个分布有着同样的整体(粗浅的说,就像两个堆有着同样的数量),在规范化的直方图或者概率密度函数上.在这基础上,EMD等同于两个分布的第一Mallows距离或者第一W…
PyTorch 实战:计算 Wasserstein 距离 2019-09-23 18:42:56 This blog is copied from: https://mp.weixin.qq.com/s/nTUKYNxdiPK3xdOoSXvTJQ 最优传输理论及 Wasserstein 距离是很多读者都希望了解的基础,本文主要通过简单案例展示了它们的基本思想,并通过 PyTorch 介绍如何实战 W 距离. 机器学习中的许多问题都涉及到令两个分布尽可能接近的思想,例如在 GAN 中令生成器分布…
转载地址:http://moosewoler.blog.163.com/blog/static/6986605201242643122296/ 李普希兹连续是以德国数学家Rudolf Lipschitz的名字命名的. 李普希兹连续是比一致连续更强的连续性条件.从直观上看,连续(或一致连续)要求自变量x发生改变的时候,因变量y不可发生突变(用δ和ε限定):而李普希兹连续更加限定了δ和ε的关系为一常数,即ε/δ=K>0. 维基百科上用这个图来直观的说明李普希兹连续. 图中两个白色对顶三角形由两条直线…
1. KL散度 KL散度又称为相对熵,信息散度,信息增益.KL散度是是两个概率分布 $P$ 和 $Q$  之间差别的非对称性的度量. KL散度是用来 度量使用基于 $Q$ 的编码来编码来自 $P$ 的样本平均所需的额外的位元数. 典型情况下,$P$ 表示数据的真实分布,$Q$ 表示数据的理论分布,模型分布,或 $P$ 的近似分布. 定义如下: 因为对数函数是凸函数,所以KL散度的值为非负数. 有时会将KL散度称为KL距离,但它并不满足距离的性质: KL散度不是对称的,即 $D_{KL} (P||…
https://blog.csdn.net/nockinonheavensdoor/article/details/82055147 注明:直观理解而已,正儿八经的严谨证明看最下面的参考. Earth Mover’s Distance 推土机距离的例子:有一堆土的分布是 PrPr, 其随机变量是xx,现在要求把这堆土挪动成为分布 PgPg ,其随机变量是yy(图上是PθPθ),这样做的方法很多,那么做最小功的挪动该是什么?这是一个优化问题对应着的最优解是: 这里Π(Pr,Pg)Π(Pr,Pg)…
度量两个分布之间的差异 (一)K-L 散度 K-L 散度在信息系统中称为相对熵,可以用来量化两种概率分布 P 和 Q 之间的差异,它是非对称性的度量.在概率学和统计学上,我们经常会使用一种更简单的.近似的分布来替代观察数据或太复杂的分布.K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量.一般情况下,P 表示数据的真实分布,Q 表示数据的理论分布,估计的模型分布或者 P 的近似分布. (二)K-L 散度公式 ​ Note:KL 散度仅当概率 \(P\) 和 \(Q\) 各自总和…
https://blog.csdn.net/leviopku/article/details/81388306 https://blog.csdn.net/nockinonheavensdoor/article/details/82055147 https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/80016095 知乎:https://zhuanlan.zhihu.com/p/26988777…
一.原始GAN的理论分析 1.1 数学描述 其实GAN的原理很好理解,网络结构主要包含生成器 (generator) 和鉴别器 (discriminator) ,数据主要包括目标样本 \(x_r \sim P_{r}\), 随机输入样本 \(z \sim P_{z}\) .生成器的目的就是根据 \(z\) 生成 \(G(z) \sim P_{r}\) ,而鉴别器则尽量区分出来 \(G(z)\) 与 \(x_{r}\) 的不同.生成器和鉴别器采用生成对抗的方式不断优化,最终能通过生成器得到期望输出…
前段时间,Wasserstein GAN以其精巧的理论分析.简单至极的算法实现.出色的实验效果,在GAN研究圈内掀起了一阵热潮(对WGAN不熟悉的读者,可以参考我之前写的介绍文章:令人拍案叫绝的Wasserstein GAN - 知乎专栏).但是很多人(包括我们实验室的同学)到了上手跑实验的时候,却发现WGAN实际上没那么完美,反而存在着训练困难.收敛速度慢等问题.其实,WGAN的作者Martin Arjovsky不久后就在reddit上表示他也意识到了这个问题,认为关键在于原设计中Lipsch…
量子距:不同于现有物理学的长度计量.量子距,空间中的两个粒子之间的距离并不是连续的,而是某个单位距(量子单位距)的整数倍,而这个距离被称为量子距. Quantum distance: Length measurement different from existing physics. Quantum distance, the distance between two particles in space is not continuous, but an integral multiple…
本文来自<Wasserstein GAN>,时间线为2017年1月,本文可以算得上是GAN发展的一个里程碑文献了,其解决了以往GAN训练困难,结果不稳定等问题. 1 引言 本文主要思考的是半监督学习.当我们说学习概率分布,典型的思维是学习一个概率密度.这通常是通过定义一个概率密度的参数化族\((P_{\theta})_{\theta\in R^d}\),然后基于样本最大似然:如果当前有真实样本\(\{x^{(i)}\}_{i=1}^m\),那么是问题转换成: \[\underset{\thet…
学习总结于国立台湾大学 :李宏毅老师 WGAN前作:Towards Principled Methods for Training Generative Adversarial Networks  WGAN:  Wasserstein GAN  Improved WGAN:  Improved Training of Wasserstein GANs  本文outline 一句话介绍WGAN: Using Earth Mover’s Distance to evaluate two distri…
在GAN的相关研究如火如荼甚至可以说是泛滥的今天,一篇新鲜出炉的arXiv论文<Wasserstein GAN>却在Reddit的Machine Learning频道火了,连Goodfellow都在帖子里和大家热烈讨论,这篇论文究竟有什么了不得的地方呢? 要知道自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难.生成器和判别器的loss无法指示训练进程.生成样本缺乏多样性等问题.从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判…
GAN存在问题 训练困难,G和D多次尝试没有稳定性,Loss无法知道能否优化,生成样本单一,改进方案靠暴力尝试 WGAN GAN的Loss函数选择不合适,使模型容易面临梯度消失,梯度不稳定,优化目标不定导致模型失败,WGAN,找到了更为合适的Loss函数,使得梯度呈线性,事实上WGAN对判别器权重进行了区间限制,使得权重控制在一定范围内,使得梯度更大概率的呈线性增长. WGAN特点 无需平衡D,G的训练组合 解决collapse model(模型崩溃)问题,保证样本多样性 结构更改简单有效 改进…
这篇笔记基于上一篇<关于GAN的一些笔记>. 1 GAN的缺陷 由于 $P_G$ 和 $P_{data}$ 它们实际上是 high-dim space 中的 low-dim manifold,因此 $P_G$ 和 $P_{data}$ 之间几乎是没有重叠的 正如我们之前说的,如果两个分布 $P,Q$ 完全没有重叠,那么 JS divergence 是一个常数 $\log⁡(2)$. 由于最优的 generator 是 我们在普通的 GAN 中,最小化的是 $P_{data}$ 和 $P_G$…
1.f 散度(f-divergence) KL-divergence 的坏处在于它是无界的.事实上KL-divergence 属于更广泛的 f-divergence 中的一种. 如果P和Q被定义成空间中的两个概率分布,则f散度被定义为: 一些通用的散度,如KL-divergence, Hellinger distance, 和total variation distance,都是f散度的一种特例.只是f函数的取值不同而也. 在python中的实现 : import numpy as np imp…
1. 欧氏距离(Euclidean Distance)       欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式.(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:(4)也可以用表示成向量运算的形式: python中的实现: 方法一: import numpy as np x=…
先来梳理一下我们之前所写的代码,原始的生成对抗网络,所要优化的目标函数为: 此目标函数可以分为两部分来看: ①固定生成器 G,优化判别器 D, 则上式可以写成如下形式: 可以转化为最小化形式: 我们编写的代码中,d_loss_real = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits = D_logits, labels = tf.ones_like(D))),由于我们判别器最后一层是 sigmoid ,所以可以看出来…
承接上上篇博客,在其基础上,加入了Wasserstein distance和correlation prior .其他相关工作.网络细节(maxout operator).训练方式和数据处理等基本和前文一致.以下是这两点改进的大概: Wasserstein convolutional neural network(WCNN)的低级层利用容易得到的大量VIS光谱训练,高级层划分为3部分:the NIR layer, the VIS layer and the NIR-VIS shared laye…
链接:https://www.nowcoder.com/acm/contest/91/A来源:牛客网 最近对抗生成网络(GAN)很火,其中有一种变体WGAN,引入了一种新的距离来提高生成图片的质量.这个距离就是Wasserstein距离,又名铲土距离. 这个问题可以描述如下: 有两堆泥土,每一堆有n个位置,标号从1~n.第一堆泥土的第i个位置有ai克泥土,第二堆泥土的第i个位置有bi克泥土.小埃可以在第一堆泥土中任意移挪动泥土,具体地从第i个位置移动k克泥土到第j个位置,但是会消耗的体力.小埃的…
连续(Continuity) 所有点连续   ->   一致连续 (uniform continuity)  ->  绝对连续  -> 李普希兹连续(Lipschitz) 弱                    ---->               强 [uniform continutity] In mathematics, a function f is uniformly continuous if, roughly speaking, it is possible to…
一.前期学习经过 GAN(Generative Adversarial Nets)是生成对抗网络的简称,由生成器和判别器组成,在训练过程中通过生成器和判别器的相互对抗,来相互的促进.提高.最近一段时间对GAN进行了学习,并使用GAN做了一次实践,在这里做一篇笔记记录一下. 最初我参照JensLee大神的讲解,使用keras构造了一个DCGAN(深度卷积生成对抗网络)模型,来对数据集中的256张小狗图像进行学习,都是一些类似这样的狗狗照片: 他的方法是通过随机生成的维度为1000的向量,生成大小为…
图像识别和自然语言处理是目前应用极为广泛的AI技术,这些技术不管是速度还是准确度都已经达到了相当的高度,具体应用例如智能手机的人脸解锁.内置的语音助手.这些技术的实现和发展都离不开神经网络,可是传统的神经网络只能解决关于辨识的问题,并不能够为机器带来自主创造的能力,例如让机器写出一篇流畅的新闻报道,生成一副美丽的风景画.但随着GAN的出现,这些都成为了可能. 什么是GAN? 生成式对抗网络(GAN, Generative Adversarial Networks)是一种近年来大热的深度学习模型,…
0. introduction GAN模型最早由Ian Goodfellow et al于2014年提出,之后主要用于signal processing和natural document processing两方面,包含图片.视频.诗歌.一些简单对话的生成等.由于文字在高维空间上不连续的问题(即任取一个word embedding向量不一定能找到其所对应的文字),GAN对于NLP的处理不如图像的处理得心应手,并且从本质上讲,图片处理相较于NLP更为简单(因为任何动物都可以处理图像,但只有人类可以…
在GAN的相关研究如火如荼甚至可以说是泛滥的今天,一篇新鲜出炉的arXiv论文<Wasserstein GAN>却在Reddit的Machine Learning频道火了,连Goodfellow都在帖子里和大家热烈讨论,这篇论文究竟有什么了不得的地方呢? 要知道自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难.生成器和判别器的loss无法指示训练进程.生成样本缺乏多样性等问题.从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判…
深入浅出 GAN·原理篇文字版(完整)|干货 from:http://baijiahao.baidu.com/s?id=1568663805038898&wfr=spider&for=pc 百家号17-05-2902:02 导语 这次的内容主要是想梳理 GAN 从 NIPS 2014 被提出,到 2017年5月,都有哪些重要的从原理和方法上的重要研究.一共覆盖了25篇重要论文(论文列表见本文最下方). 引言:GAN的惊艳应用 首先来看看 GAN 现在能做到哪些惊艳的事呢? GAN 可以被用…
包含三部分:1.WGAN改进点  2.代码修改  3.训练心得 一.WGAN的改进部分: 判别器最后一层去掉sigmoid    (相当于最后一层做了一个y = x的激活) 生成器和判别器的loss不取log 每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c 不要用基于动量的优化算法(包括momentum和Adam),推荐RMSProp,SGD也行        (这部分很玄学) 去掉sigmoid会出现什么问题? 优点: 去掉sigmoid 只要二者存在差值就会学习让他们尽量小…
Libo1575899134@outlook.com Libo (原创文章,转发请注明作者) 本文章会先从Gan的简单应用示例讲起,从三个方面问题以及解决思路覆盖25篇GAN论文,第二个大部分会进一步讲Gan的所有领域应用 ----------------------------------------------------------------------------------- 上一篇说到最近有人关于encoder给出了更加直观的解释: 从另一个角度理解,传统的A是我们希望的map,两…
注:本文来自机器之心的PaperWeekly系列:万字综述之生成对抗网络(GAN),如有侵权,请联系删除,谢谢! 前阵子学习 GAN 的过程发现现在的 GAN 综述文章大都是 2016 年 Ian Goodfellow 或者自动化所王飞跃老师那篇.可是在深度学习,GAN领域,其进展都是以月来计算的,感觉那两篇综述有些老了.最近发现有一篇最新的 GAN 综述论文(How Generative Adversarial Networks and Their Variants Work: An Over…
GAN 原始GAN中判别器要最小化如下损失函数,尽可能把真实样本分为正例,生成样本分为负例: 其中是真实样本分布,是由生成器产生的样本分布. 第一个式子我们不看梯度符号的话即为判别器的损失函数,logD(xi)为判别器将真实数据判定为真实数据的概率,log(1-D(G(zi)))为判别器将生成器生成的虚假数据判定为真实数据的对立面即将虚假数据仍判定为虚假数据的概率.判别器就相当于警察,在鉴别真伪时,必须要保证鉴别的结果真的就是真的,假的就是假的,所以判别器的总损失即为二者之和,应当最大化该损失.…