开发者自述：我是这样学习 GAN 的

from:https://www.leiphone.com/news/201707/1JEkcUZI1leAFq5L.html

Generative Adversarial Network，就是大家耳熟能详的 GAN，由 Ian Goodfellow 首先提出，在这两年更是深度学习中最热门的东西，仿佛什么东西都能由 GAN 做出来。我最近刚入门 GAN，看了些资料，做一些笔记。

1.Generation

什么是生成（generation）？就是模型通过学习一些数据，然后生成类似的数据。让机器看一些动物图片，然后自己来产生动物的图片，这就是生成。

以前就有很多可以用来生成的技术了，比如 auto-encoder（自编码器），结构如下图：

你训练一个 encoder，把 input 转换成 code，然后训练一个 decoder，把 code 转换成一个 image，然后计算得到的 image 和 input 之间的 MSE（mean square error），训练完这个 model 之后，取出后半部分 NN Decoder，输入一个随机的 code，就能 generate 一个 image。

但是 auto-encoder 生成 image 的效果，当然看着很别扭啦，一眼就能看出真假。所以后来还提出了比如VAE这样的生成模型，我对此也不是很了解，在这就不细说。

上述的这些生成模型，其实有一个非常严重的弊端。比如 VAE，它生成的 image 是希望和 input 越相似越好，但是 model 是如何来衡量这个相似呢？model 会计算一个 loss，采用的大多是 MSE，即每一个像素上的均方差。loss 小真的表示相似嘛？

比如这两张图，第一张，我们认为是好的生成图片，第二张是差的生成图片，但是对于上述的 model 来说，这两张图片计算出来的 loss 是一样大的，所以会认为是一样好的图片。

这就是上述生成模型的弊端，用来衡量生成图片好坏的标准并不能很好的完成想要实现的目的。于是就有了下面要讲的 GAN。

2.GAN

大名鼎鼎的 GAN 是如何生成图片的呢？首先大家都知道 GAN 有两个网络，一个是 generator，一个是 discriminator，从二人零和博弈中受启发，通过两个网络互相对抗来达到最好的生成效果。流程如下：

主要流程类似上面这个图。首先，有一个一代的 generator，它能生成一些很差的图片，然后有一个一代的 discriminator，它能准确的把生成的图片，和真实的图片分类，简而言之，这个 discriminator 就是一个二分类器，对生成的图片输出 0，对真实的图片输出 1。

接着，开始训练出二代的 generator，它能生成稍好一点的图片，能够让一代的 discriminator 认为这些生成的图片是真实的图片。然后会训练出一个二代的 discriminator，它能准确的识别出真实的图片，和二代 generator 生成的图片。以此类推，会有三代，四代。。。n 代的 generator 和 discriminator，最后 discriminator 无法分辨生成的图片和真实图片，这个网络就拟合了。

这就是 GAN，运行过程就是这么的简单。这就结束了嘛？显然没有，下面还要介绍一下 GAN 的原理。

3.原理

首先我们知道真实图片集的分布 P_data(x)，x 是一个真实图片，可以想象成一个向量，这个向量集合的分布就是 P_data。我们需要生成一些也在这个分布内的图片，如果直接就是这个分布的话，怕是做不到的。

我们现在有的 generator 生成的分布可以假设为 P_G(x;θ)，这是一个由 θ 控制的分布，θ 是这个分布的参数（如果是高斯混合模型，那么 θ 就是每个高斯分布的平均值和方差）

假设我们在真实分布中取出一些数据，{x¹, x², ... , x^m}，我们想要计算一个似然 P_G(xⁱ; θ)。

对于这些数据，在生成模型中的似然就是

我们想要最大化这个似然，等价于让 generator 生成那些真实图片的概率最大。这就变成了一个最大似然估计的问题了，我们需要找到一个 θ* 来最大化这个似然。

寻找一个 θ* 来最大化这个似然，等价于最大化 log 似然。因为此时这 m 个数据，是从真实分布中取的，所以也就约等于，真实分布中的所有 x 在 P_G分布中的 log 似然的期望。

真实分布中的所有 x 的期望，等价于求概率积分，所以可以转化成积分运算，因为减号后面的项和 θ 无关，所以添上之后还是等价的。然后提出共有的项，括号内的反转，max 变 min，就可以转化为 KL divergence 的形式了，KL divergence 描述的是两个概率分布之间的差异。

所以最大化似然，让 generator 最大概率的生成真实图片，也就是要找一个 θ 让 P_G更接近于 P_data。

那如何来找这个最合理的 θ 呢？我们可以假设 P_G(x; θ) 是一个神经网络。

首先随机一个向量 z，通过 G(z)=x 这个网络，生成图片 x，那么我们如何比较两个分布是否相似呢？只要我们取一组 sample z，这组 z 符合一个分布，那么通过网络就可以生成另一个分布 P_G，然后来比较与真实分布 P_data。

大家都知道，神经网络只要有非线性激活函数，就可以去拟合任意的函数，那么分布也是一样，所以可以用一直正态分布，或者高斯分布，取样去训练一个神经网络，学习到一个很复杂的分布。

如何来找到更接近的分布，这就是 GAN 的贡献了。先给出 GAN 的公式：

这个式子的好处在于，固定 G，max V(G,D) 就表示 P_G 和 P_data 之间的差异，然后要找一个最好的 G，让这个最大值最小，也就是两个分布之间的差异最小。

表面上看这个的意思是，D 要让这个式子尽可能的大，也就是对于 x 是真实分布中，D(x) 要接近与 1，对于 x 来自于生成的分布，D(x) 要接近于 0，然后 G 要让式子尽可能的小，让来自于生成分布中的 x，D(x) 尽可能的接近 1。

现在我们先固定 G，来求解最优的 D：

对于一个给定的 x，得到最优的 D 如上图，范围在 (0,1) 内，把最优的 D 带入

可以得到：

JS divergence 是 KL divergence 的对称平滑版本，表示了两个分布之间的差异，这个推导就表明了上面所说的，固定 G。

表示两个分布之间的差异，最小值是 -2log2，最大值为 0。

现在我们需要找个 G，来最小化

观察上式，当 P_G(x)=P_data(x) 时，G 是最优的。

4.训练

有了上面推导的基础之后，我们就可以开始训练 GAN 了。结合我们开头说的，两个网络交替训练，我们可以在起初有一个 G₀ 和 D₀，先训练 D₀找到：

然后固定 D₀ 开始训练 G₀，训练的过程都可以使用 gradient descent，以此类推，训练 D₁,G₁,D₂,G₂,...

但是这里有个问题就是，你可能在 D₀* 的位置取到了：

然后更新 G₀ 为 G₁，可能

了，但是并不保证会出现一个新的点 D₁* 使得

这样更新 G 就没达到它原来应该要的效果，如下图所示：

避免上述情况的方法就是更新 G 的时候，不要更新 G 太多。

知道了网络的训练顺序，我们还需要设定两个 loss function，一个是 D 的 loss，一个是 G 的 loss。下面是整个 GAN 的训练具体步骤：

上述步骤在机器学习和深度学习中也是非常常见，易于理解。

5.存在的问题

但是上面 G 的 loss function 还是有一点小问题，下图是两个函数的图像：

log(1-D(x)) 是我们计算时 G 的 loss function，但是我们发现，在 D(x) 接近于 0 的时候，这个函数十分平滑，梯度非常的小。这就会导致，在训练的初期，G 想要骗过 D，变化十分的缓慢，而上面的函数，趋势和下面的是一样的，都是递减的。但是它的优势是在 D(x) 接近 0 的时候，梯度很大，有利于训练，在 D(x) 越来越大之后，梯度减小，这也很符合实际，在初期应该训练速度更快，到后期速度减慢。

所以我们把 G 的 loss function 修改为

这样可以提高训练的速度。

还有一个问题，在其他 paper 中提出，就是经过实验发现，经过许多次训练，loss 一直都是平的，也就是

JS divergence 一直都是 log2，P_G和 P_data 完全没有交集，但是实际上两个分布是有交集的，造成这个的原因是因为，我们无法真正计算期望和积分，只能使用 sample 的方法，如果训练的过拟合了，D 还是能够完全把两部分的点分开，如下图：

对于这个问题，我们是否应该让 D 变得弱一点，减弱它的分类能力，但是从理论上讲，为了让它能够有效的区分真假图片，我们又希望它能够 powerful，所以这里就产生了矛盾。

还有可能的原因是，虽然两个分布都是高维的，但是两个分布都十分的窄，可能交集相当小，这样也会导致 JS divergence 算出来 =log2，约等于没有交集。

解决的一些方法，有添加噪声，让两个分布变得更宽，可能可以增大它们的交集，这样 JS divergence 就可以计算，但是随着时间变化，噪声需要逐渐变小。

还有一个问题叫 Mode Collapse，如下图：

这个图的意思是，data 的分布是一个双峰的，但是学习到的生成分布却只有单峰，我们可以看到模型学到的数据，但是却不知道它没有学到的分布。

造成这个情况的原因是，KL divergence 里的两个分布写反了

这个图很清楚的显示了，如果是第一个 KL divergence 的写法，为了防止出现无穷大，所以有 P_data 出现的地方都必须要有 P_G 覆盖，就不会出现 Mode Collapse。

6.参考

这是对 GAN 入门学习做的一些笔记和理解，后来太懒了，不想打公式了，主要是参考了李宏毅老师的视频：

http://t.cn/RKXQOV0

GAN的原理入门的更多相关文章

GAN网络从入门教程（二）之GAN原理
在一篇博客GAN网络从入门教程(一)之GAN网络介绍中,简单的对GAN网络进行了一些介绍,介绍了其是什么,然后大概的流程是什么. 在这篇博客中,主要是介绍其数学公式,以及其算法流程.当然数学公式只是简 ...
GAN学习指南：从原理入门到制作生成Demo，总共分几步？
来源:https://www.leiphone.com/news/201701/yZvIqK8VbxoYejLl.html?viewType=weixin 导语:本文介绍下GAN和DCGAN的原理,以 ...
【GAN】GAN的原理及推导
把GAN的论文看完了, 也确实蛮厉害的懒得写笔记了,转一些较好的笔记,前面先贴一些原论文里推理部分,进行备忘. GAN的解释算法流程 GAN的理论推理转自:https://zhuanlan.zh ...
GAN网络从入门教程（一）之GAN网络介绍
GAN网络从入门教程(一)之GAN网络介绍稍微的开一个新坑,同样也是入门教程(因此教程的内容不会是从入门到精通,而是从入门到入土).主要是为了完成数据挖掘的课程设计,然后就把挖掘榔头挖到了GAN网络 ...
【GAN与NLP】GAN的原理 —— 与VAE对比及JS散度出发
0. introduction GAN模型最早由Ian Goodfellow et al于2014年提出,之后主要用于signal processing和natural document proces ...
转: DNS 原理入门 (from 阮一峰)
转自:http://www.ruanyifeng.com/blog/2016/06/dns.html DNS 原理入门作者: 阮一峰日期: 2016年6月16日 DNS 是互联网核心协议之一. ...
Git原理入门简析
为了获得更好的阅读体验,建议访问原地址:传送门前言: 之前听过公司大佬分享过 Git 原理之后就想来自己总结一下,最近一忙起来就拖得久了,本来想塞更多的干货,但是不喜欢拖太久,所以先出一版足够入门的 ...
Git原理入门解析
前言: 之前听过公司大佬分享过 Git 原理之后就想来自己总结一下,最近一忙起来就拖得久了,本来想塞更多的干货,但是不喜欢拖太久,所以先出一版足够入门的: 一.Git 简介 Git 是当前流行的分布式 ...
DNS 原理入门 - 阮一峰（转载）
DNS 原理入门作者: 阮一峰日期: 2016年6月16日 DNS 是互联网核心协议之一.不管是上网浏览,还是编程开发,都需要了解一点它的知识. 本文详细介绍DNS的原理,以及如何运用工具软件 ...

随机推荐

for and range()
pyhon 中 for 循环可以遍历任何序列的项目,如一个字典或者一个字符. for 循环格式一般如下: for <variable-变量> in <sequence-序列>: ...
java架构师之路：推荐的15本书
作为Java程序员来说,最痛苦的事情莫过于可以选择的范围太广,可以读的书太多,往往容易无所适从.我想就我自己读过的技术书籍中挑选出来一些,按照学习的先后顺序,推荐给大家,特别是那些想不断提高自己技术水 ...
［设计模式］访问者 Visitor 模式
访问者模式是对象的行为模式. 访问者模式的目的是封装一些施加于某种数据结构元素之上的操作.一旦这些操作需要修改的话,接受这个操作的数据结构则可以保持不变.
sga之library cache 内部原理
一.概述 library cache(库缓存)是shared pool中的一块内存区域,它的主要作用是缓存刚刚执行过的sql语句和pl/sql(包括存储过程.包.函数.触发器)所对应的解析计划.解析树 ...
吴超老师课程--Flume的安装和介绍
常用的分布式日志收集系统
python16_day04【编码、函数、装饰器、包】
一.编码总结 """python2 文件存储默认是ascii方式,启动加#coding:utf8就是文件以utf8方式打开.否则就是以ascii.变量则是str. 例子: ...
mysql 练习题（Day44）
init.sql文件内容 /* 数据导入: Navicat Premium Data Transfer Source Server : localhost Source Server Type : M ...
python基础（数字、字符串、布尔值、字典数据类型简介）
一执行第一个python程序 1.下载安装python2.7和python3.6的版本及pycharm,我们可以再解释器中输入这样一行代码: 则相应的就打出了一句话.这里的print是打印的意思.你 ...
ServiceModel 元数据实用工具 (Svcutil.exe)
ServiceModel 元数据实用工具用于依据元数据文档生成服务模型代码,以及依据服务模型代码生成元数据文档一.SvcUtil.exe ServiceModel 元数据实用工具可在 Windows ...
Codeforces Round #396 (Div. 2) E. Mahmoud and a xor trip
地址:http://codeforces.com/contest/766/problem/E 题目: E. Mahmoud and a xor trip time limit per test 2 s ...

GAN的原理入门