Abstract:

  无监督图像到图像的翻译目的是学习不同域图像的一个联合分布,通过使用来自单独域图像的边缘分布。给定一个边缘分布,可以得到很多种联合分布。如果不加入额外的假设条件的话,从边缘分布无法推出联合分布。为了解决这个问题,作者提出了一个shared-latent空间假设并且基于Coupled GANs提出一个无监督的图像到图像的翻译框架

Introduction:

  计算机视觉中的许多问题可以被当作是图像到图像的翻译问题,匹配一个域中的图像对应到到另一个域中。如超分辨率可以被当作匹配一张低分辨率图像到对应的高分辨率图像。图像着色可以看作匹配一张灰度图到一张对应的彩色图像。这些问题有监督方式和无监督方式来解决。在有监督情况下,有可用的不同域的成对的图像。在无监督情况下,我们只有两个单独的数据集,其中一个数据集包含一个域的图像,另一个数据集包含了另一个域的图像。没有配对的样本来指导一张图像如何转换到另一个域中的图像。由于缺乏配对的图像,无监督的图像到图像的翻译问题被认为是很难的,但是它是实用的,因为使得数据的收集变得简单。

  本文从概率建模的角度来分析图像翻译问题,关键的挑战在于学习不同域图像的联合分布。在无监督设置下,两个数据集包含了来自不同的两个域的两个边缘分布的图像,目标是使用这些图像来推断联合分布。耦合理论说明了通常给定一个边缘分布我们可以得到很多联合分布。因此,从边缘分布推断联合分布是一个高度欠定的问题。为了解决这个问题,我们需要在联合分布的基础上加入额外的假设。

  为此,作者做了一个shared-latent空间假设,假设一对来自不同域的对应的图像可以被映射为共享潜在空间的同一个表示。基于这个假设,作者提出了UNIT框架,是基于生成对抗网络和可变分自编码。使用VAE-GAN来建模每个图像域。对抗训练目标整合了一个权重共享约束,形成了一个共享的潜在空间,来生成两个域对应的图像,同时可变分自编码器将不同域的输入图像和转换图像联系起来。该shared-latent空间假设被用在Coupled GAN中为了联合分布学习,作者延伸了Coupled GAN的工作。并且在本文的工作中,shared-latent space约束暗含了循环一致性约束。

假设:

X1和X2表示两个图像域。在有监督图像转换条件下,我们可以得到样本(x1, x2)来自一个联合分布PX1,X2(x1, x2)。在无监督中,我们只有来自边缘分布PX1(x1)和PX2(x2)的样本。由于很多种可能的联合分布可以产生给定的边缘分布,如果没有额外的假设无法从边缘分布推断出联合分布。

如图1所示,假设任意给定的样本对x1, x2,存在一个共享的潜在编码在一个共享潜在空间,以至于我们可以从这个编码恢复出两个图像,并且我们从两张图像中的一个计算出该编码。也就是说,我们假设存在函数E1,E2,G1,G2,给定一对来自联合分布的图像(x1, x2),可以得到以及相反地在这个模型中,函数匹配X1域到X2域,可以用复合函数表示为同样,。即UNIT学习

。注意到这俩存在的一个必要条件是循环一致性约束:。我们可以重建输入图像将转换后的输入图像再转回去。换句话说,提出的共享潜在空间假设包含了循环一致性假设。

为了实现这个shared-latent space假设,进一步假设一个共享的中间表示h,因此生成一堆对应图像的过程允许这样一个形式

因此,可以得到,其中是一个普通的高层生成函数,匹配z到h和是低层生成函数,匹配h到x1,x2

框架结构

如图1所示,本文的框架是基于变分自编码器和生成对抗网络。共由6个子网络组成:两个域图像编码器E1和E2,两个域图像生成器G1和G2,以及两个域图像判别器D1和D2。该框架在一次训练中学习两个方向的转换。

VAE. 编码-生成器对{E1,G1}由一个X1域的变分自编码器组成(VAE1)。对于一张输入图像VAE1首先通过VAE1映射x1到潜在空间Z的一个编码,然后解码该编码的一个随机扰动的版本来通过生成器G1重构输入图像。假设潜在空间Z中的部分是条件独立的,并且是方差为1的高斯分布。编码器输出一个均值向量,潜在编码z1的分布为,其中I为单位矩阵。重构的图像是的分布被当作的一个随机向量,并且从中采样得到。E2,G2同理。

  利用重新参数化技巧,不可导的采样操作可以重新参数化作为一个可导的操作通过使用辅助的随机变量。重新参数化技巧可以使我们利用反向传播来训练VAEs。η表示多方差高斯分布的随机向量:

采样操作可以通过来实现。

权值共享.基于共享潜在空间假设,我们施加一个权值共享约束来关联两个VAEs。特别地,我们共享E1和E2最后几层的权重,是为了提出两个输入图像域的高层表示。同样地,G1和G2的前面几层共享权重,用来解码高层的表示为了重构输入图像。

注意到单独的权值共享约束不能确保对应的两个域的图像有同样的潜在编码。在无监督环境下,没有成对的两个域的图像存在来训练网络从而输出相同的潜在编码。提取到的一对图像的潜在编码通常是不同的。即使它们是一样的,同样的潜在信息可能有不同域的不同的语义信息。因此,同样的潜在编码仍然能够解码输出两个无关的图像。但是,我们将通过对抗训练来给出,两个域中的成对图像可以通过E1和E2映射到一个通用的潜在编码,并且该潜在编码可以被映射成一对对应的图像在两个域中通过G1和G2

这个共享的潜在空间假设使得我们可以进行图像到图像的转换。通过应用可以把X1域中的图像x1转换到X2域中的图像x2。这两条分支和图像重构的分支联合训练。

GANs. 本文的网络框架由两个生成对抗网络组成:在GAN1中,对于从第一个域中采集到的真实图像,D1应该输出真,对于由G1生成的图像,输出为假。G1可以生成两种类型的图像,来自重构分支的图像,以及来自转换分支的图像因为重建分支可以有监督的训练,我们只用对抗训练到转换分支的图像

Cycle-consistency (CC). 因为shared-latent space假设暗含了循环一致性约束,我们也可以施加循环一致性约束在提出的网络框架中来进一步正则化这个欠定的无监督图像转换问题。

Learning. 我们联合解决这个学习问题对于图像重建分支,图像转换分支以及循环重构分支。

VAE训练旨在最小化一个可变上边界,VAE的目标是

其中超参数控制了目标项的权重,KL散度项惩罚潜在编码分布与先验分布的偏差。正则化使得一个简单的方式从潜在空间中采样。我们利用拉普拉斯分布来建模。因此,最小化负对数似然项等价于最小化图像与重构图像之间的绝对距离。其中,先验分布是一个0均值的高斯分布。GAN的目标函数是

该目标函数是条件GAN目标函数。被用来确保生成的图像看起来像目标域的图像,超参数控制了GAN目标函数的影响。

只用一个VAE-like的目标函数来建模循环一致性约束,

其中负对数似然目标函数确保了一个两次转换图像看起来像输入的图像,KL项惩罚潜在的编码由背离循环重建分支的先验分布。超参数控制了两个不同目标项的权重。

Unsupervised Image-to-Image Translation Networks的更多相关文章

  1. Unsupervised Image-to-Image Translation Networks --- Reading Writing

    Unsupervised Image-to-Image Translation Networks --- Reading Writing 2017.03.03 Motivations: most ex ...

  2. On Explainability of Deep Neural Networks

    On Explainability of Deep Neural Networks « Learning F# Functional Data Structures and Algorithms is ...

  3. 提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服

    同步自我的知乎专栏:https://zhuanlan.zhihu.com/p/27199954 作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章.这篇就介绍利用生成式对抗网络(GAN)的两个基 ...

  4. Generative Adversarial Nets[CycleGAN]

    本文来自<Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks>,时间线为2017 ...

  5. (转)Awsome Domain-Adaptation

    Awsome Domain-Adaptation 2018-08-06 19:27:54 This blog is copied from: https://github.com/zhaoxin94/ ...

  6. (转)Autonomous_Vehicle_Paper_Reading_List

    Autonomous_Vehicle_Paper_Reading_List 2018-07-19 10:40:08 Reference:https://github.com/ZRZheng/Auton ...

  7. Awesome TensorFlow

    Awesome TensorFlow  A curated list of awesome TensorFlow experiments, libraries, and projects. Inspi ...

  8. 生成对抗网络资源 Adversarial Nets Papers

    来源:https://github.com/zhangqianhui/AdversarialNetsPapers AdversarialNetsPapers The classical Papers ...

  9. 《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》论文笔记

    Code Address:https://github.com/junyanz/CycleGAN. Abstract 引出Image Translating的概念(greyscale to color ...

随机推荐

  1. 下载 Eclipse 免安装版~

    进入https://www.eclipse.org/downloads/

  2. Linux下安装升级python

    本文主要是参考帖子,感谢这位博主,我主要是对相关操作进行补充和说明. 本文主要是在linux(centos)下安装Python3.7.1 1.下载安装Python-3.7.1 1) 下载Python- ...

  3. 【转载】平时的你VS面试的你

    https://www.cnblogs.com/rjzheng/p/10275453.html 引言 大家在面试的时候,特别是最后一面HR面,是不是经常都说自己咳咳咳.博主特意总结了一下平时的你和面试 ...

  4. Idea集成使用SVN教程

    第一步:下载svn的客户端,通俗一点来说就是小乌龟啦!官网下载地址:https://tortoisesvn.net/downloads.html 下载之后直接安装就好了,但是要注意这里,选择安装所有的 ...

  5. luoguP3723 HNOI2017 礼物

    链接 首先,两个手环增加非负整数亮度,等于其中一个增加一个整数亮度,可以为负. 令增加量为\(x\),旋转以后的原数列为,那么在不考虑转圈圈的情况下,现在的费用就是: \[\sum_{i=1}^n\l ...

  6. MySQL不常用、易忽略的小知识

    笔者从事开发也有一段时间了,关于数据库方面的一些小知识在这里总结一下 1.count(*),count(1)与count(column)区别 count(*)对行的数目进行计算,包含NULL coun ...

  7. SpringBoot框架(5)-- @EableAutoConfiguration项目应用

    场景:在项目中想在当前maven项目中自动装配其他自定义的Maven项目,例如,创建数据库配置中心,被夺多个maven引用,希望简单配置,就实现springboot自动装配数据库配置类. 由此我们联想 ...

  8. 【JSOI2014】歌剧表演

    题目 分析 我们抽象的认为一些不能互相辨认的人,被分到了一个集合,每当又有一场演出,就将每个出演的演员扔出集合,再将上次在相同集合的分在同一集合. 然后修改被分的集合和被新创建的时间,当集合只有一个数 ...

  9. 【NOIP2017提高组模拟12.24】B

    题目 现在你有N个数,分别为A1,A2,-,AN,现在有M组询问需要你回答.每个询问将会给你一个L和R(L<=R),保证Max{Ai}-Min{Ai}<=R-L,你需要找出并输出最小的K( ...

  10. TypeScript作为前端开发你必须学习的技能二)

    TypeScript 变量声明 变量是一种使用方便的占位符,用于引用计算机内存地址.我们可以把变量看做存储数据的容器. TypeScript 变量的命名规则:和javascript一样.除了下划线 _ ...