【论文阅读】Diverse Image-to-Image Translation via Disentangled Representations(ECCV2018 oral)
目录
- 相关链接
- 方法亮点
- 相关工作
- 方法细节
- 实验结果
- 总结与收获
- 参考文献
相关链接:
论文:https://arxiv.org/abs/1808.00948
代码:https://github.com/HsinYingLee/DRIT
方法亮点:
- 提出一个内容判别器,用于判断编码器生成的图片内容性质是否一样的。
相关工作:
- 文章的提出主要是解决了unpaired-data 的图像翻译问题。目前大多数的解决方法都是基于CycleGAN,本文也不例外。
与CycleGAN较为不同的是本文借鉴了infoGAN的思想,将一张图片看成主要是由内容(content)和特性(Attribute)两部分组成, 用两个Enconder分别去学这两种特征。
这篇文章和去年2017年BMVC上的工作GeneGAN也很相似,GeneGAN 使用了一个Encoder将一张图片编码成前景和背景两个部分,前景信息可能是眼镜,微笑等等,通过前景的转换,可以得到同一个人不同风格,比如从微笑-》不笑。
- 模式崩溃问题目前还没有得到很好的解决,受到该问题的影响,输入随机噪声不能够使GAN生成的多样。
为了解决上述问题,本文参考了BicycleGAN,对输入噪声进行了约束。(如下图:)
方法细节:
文章工作:
如上图所示,本文可以实现两种类型的风格转换,左图:给定输入,和服从正态分布的随机噪声,即可得到风格转换图;右图:给定两张输入,通过编码器分别获得两张图片的Attribute,通过交换Attribute进行风格转换,我们把其中一张输入作为Guide,也就是只提供Attribute特征(右图Attribute列)。
方法架构:
从上图来看,这篇论文的网络结构还是比较复杂的,由4个编码器,2个生成器,2个判别器,1个内容判别器组成的。4个编码器用来学两种不同风格图像的内容和特征,2个生成器分别用于学两种不同风格的图片,2个判别器就用来判别器这两个生成器生成的结果是否足够“逼真”。
作者基于这样的一个假设:不同风格类型图片的内容由于不包含特征信息(理想情况下),应该是不可区分的。在这个前提下,作者提出了两个策略:
- weight-sharing: 两个内容编码器的最后一层网络参数共享,保证两个内容分布一致;两个生成器的第一层网络参数共享;
- content discrimination: 判别器无法区分Ec(x)或Ec(y)是哪一类;损失函数如下:
总体损失函数:
其中即上文提到的内容判别器损失
;
循环损失:,即x经过生成器Gy得到x',再经过Gx得到x'',此时x和x''应该是相同的。
实验结果:
winter->summer实验,上述结果图中可以看出我们的方法生成的比其他的方法生成的图片更加自然逼真。
该实验主要是比较不同方法生成的图片的真实性。实验数据:winter->summer translation on the Yosemite dataset。Fig.9左侧结果图实验设置为判断一对图片中,询问观测者哪张图片更真实一点。这一对图片怎么采集的呢?一张是来自我们方法生成的图片,另外一张则是来自其他不同生成方法的结果图。Fig.9右侧结果图实验设置为判断一对图片中,询问观测者哪张图片更真实一点。这一对图片怎么采集的呢?一张是来自真实图片,另外一张则是来自不同生成方法的结果图。遗憾的是文章中并没有明确地提到该次实验的观测者数量,判断图片是否为整个数据集。这是比较存疑的一个实验。
从这个结果来看,生成图像的真实性比cycleGAN还要低的多。
表2的第一行和第二行结果可以明显的看出本文提出的内容判别器对生成结果的多样性有很大的提升。
表3想表达的是BicycleGAN需要成对的数据集,对数据集的要求比较高,而我们的方法不需要成对的数据集效果却能和BicycleGAN旗鼓相当。
上述的实验,主要是想通过分类准确率这个评价指标来判断我们生成结果的质量。分别用上述的方法训练,得到图片用来训练分类器,只用用同一个测试集来衡量该分类器的分类效果,分类效果好说明生成的图片较好。从表中可以看出本文的方法在这两个数据集上的生成效果都能较好的保留source的内容信息。
作者说图7中证明了提出的方法的生成器学习的是图像的分布,而不是简单的记忆训练集中的图像,但是个人觉得这个解释不够清晰。大胆的猜测,上图中非红色框内为本文生成的图片,作为guide 的Attribute是两张Attribute图片经过Encoder 学习到的特征进行插值得到的。
总结与收获
这篇文章的最大特点在于提出了一个内容判别器,用于约束两个数据集的内容特征;但是本文的网络数量较多,训练起来,速度会受到一定影响,网络也比较复杂,对GPU有一定的要求。并且本文的生成图像在真实性上比CycleGAN还差。
【论文阅读】Diverse Image-to-Image Translation via Disentangled Representations(ECCV2018 oral)的更多相关文章
- 论文阅读笔记二十:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation(CVPR2017)
源文网址:https://arxiv.org/abs/1707.03718 tensorflow代码:https://github.com/luofan18/linknet-tensorflow 基于 ...
- [论文阅读]阿里DIN深度兴趣网络之总体解读
[论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...
- 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)
白翔的CRNN论文阅读 1. 论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...
- BITED数学建模七日谈之三:怎样进行论文阅读
前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...
- 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
- Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
- 论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
- 论文阅读笔记六:FCN:Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...
随机推荐
- javascript获取坐标/滚动/宽高/距离
坐标(鼠标/触摸) event.screenX 鼠标/触摸,相对于显示屏的X坐标 event.screenY 鼠标/触摸,相对于显示屏的Y坐标 event.clientX 鼠标/触摸,相对于浏览器视口 ...
- OptimalSolution(5)--数组和矩阵问题(2)2
一.找到无序数组中最小的k个数 二.在数组中找到出现次数大于N/K的数 三.最长的可整合子数组的长度 四.不重复打印排序数组中相加和为给定值的所有二元组和三元组 五.未排序正数数组中累加和为给定值的最 ...
- SpringBoot与MybatisPlus3.X整合之通用枚举(十二)
一 通用枚举 解决了繁琐的配置,让 mybatis 优雅的使用枚举属性! 自3.1.0开始,可配置默认枚举处理类来省略扫描通用枚举配置 默认枚举配置 升级说明: 3.1.0 以下版本改变了原生默认行为 ...
- JavaFX简介和Scene Builder工具的安装使用简易教程
JavaFX概述和简介 富互联网应用是那些提供与Web应用程序类似的功能,并可作为桌面应用程序体验的应用.与用户的正常网络应用程序相比,它们提供更好的视觉体验.这些应用程序可作为浏览器插件或作为虚拟机 ...
- 【建站02】WordPress主题设置
大家好,我是帝哥.相信很多朋友看了我上一篇文章的介绍之后已经可以搭建自己的个人网站了,但是网站的功能和美观程度都还是有所欠缺的,现在呢,再给大家大概的介绍一些如何美化自己的网站,当然了,这个过程也是很 ...
- CSPS模拟 100
我又挂分了T_T 这么吉利的数字..本来想考的好一点的 T1 没加当前弧优化(其实也不会),若志了 各种低错连篇而且没想到点不联通..没有奇度点就直接从1开始搜了 于是喜提70(犯了这两个若志错误应该 ...
- 考试T1护花
传送门 这题的提议似乎有什么问题,只要约翰选好了要抓那头牛,他就不会吃草了,站在原地傻等? 这题就是贪心,但在用cmp中比较单位时间吃草数量时,要用double型,不然可能会有点一样... 还有就是主 ...
- 安装cnpm遇到的问题
安装 cnpm时,用git安装时,安装好node环境后,测试版本号node -v和npm -v都没问题,可以输出版本号,但是安装cnpm时,使用淘宝镜像安装后,会出现如下警告: 这个是提醒你安装的版本 ...
- Hibernate一对多、多对一的关系表达
一.关系表达: 1.一对多.多对一表的关系: 学生表: 班级表: 在学生表中,学生的学号是主键.在班级表中,班级号是主键,因此,学生表的外键是classno.因此,班级对应学生是一对多,学生对应班级是 ...
- 简单搭建syslog-ng server记录log
### 简单搭建syslog-ng server记录log 安装syslog-ng apt-get install syslog-ng 安装syslog-ng 配置syslog-ng vim /etc ...