CycleGan论文笔记

冰皮抹茶 2024-10-22 12:03:26 原文

原文地址：https://arxiv.org/abs/1703.10593

背景——风格迁移

图片生成领域是GAN网络的天下，最近很多人将GAN网络应用到了图像风格迁移领域。这篇论文也是做image to image translation,之前已经有较为成功的网络PIX2PIX了（同一个团队做的），本篇论文的出发点和PIX2PIX的不同在于：

PIX2PIX网络要求提供image pairs，也即是要求提供x和y，整个思路为：从噪声z，根据条件x，生成和真实图片y相近的y‘。条件x和图像y是具有一定关联性的。
而本篇CycalGAN不要求提供pairs，如题目所说：Unpaired。因为成对的图像数据集其实并不多。这里的x和y不要求有什么较好的关联性，可以是毫不相干的两幅图像。

方法

普通的GAN损失：

但单纯的使用这一个损失是无法进行训练的。原因在于，映射F完全可以将所有x都映射到y空间的同一张图片，使损失无效化。为此提出循环GAN网络。从域x生成域y，再从y生成回x，循环往复。

网络结构

两个生成器网络：G和F；两个鉴别器网络：Dx和Dy。整个网络是一个对偶结构。

下图对网络结构说明很清楚，出处见水印。

Loss函数

Loss部分除了经典的基础的GAN网络的对抗loss，还提出了一个cycle-loss。因为网络需要保证生成的图像必须保留有原始图像的特性，所以如果我们使用生成器GenratorA-B生成一张假图像，那么要能够使用另外一个生成器GenratorB-A来努力恢复成原始图像。此过程必须满足循环一致性。

对抗损失有两部分：

对偶网络的循环损失分为前向循环损失和后向循环损失，分别为：

采用L1 loss：

最后，总的损失函数为：

lamba=10

代码中还有个loss：identity loss

大致可以这样理解，生成器是负责域x到域y的图像生成，如果输入域y的图片还是应该生成域y的图片y‘’，计算y‘’和输入y的loss。

训练细节

Generator采用的是Perceptual losses for real-time style transfer and super-resolution 一文中的网络结构；一个resblock组成的网络，降采样部分采用stride 卷积，增采样部分采用反卷积；Discriminator采用的仍是pix2pix中的PatchGANs结构，大小为70x70
定义四个xx器的损失函数，分别优化训练G和D，两个生成器共享权重，两个鉴别器也共享权重训练
计算每个生成图像的损失是不可能的，因为会耗费大量的计算资源。建立一个图像库，存储之前生成的50张图，而不只是最新的生成器生成的图
Lr=0.0002。对于前100个周期，保持相同的学习速率0.0002，然后在接下来的100个周期内线性衰减到0。

实验结果

一些对比试验结果：（通过label生成原图y‘，再利用FCN对生成的原图y‘进行分割，进行一个label-photo的实验）

CycleGan论文笔记的更多相关文章

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Twitter 新一代流处理利器——Heron 论文笔记之Heron架构
Twitter 新一代流处理利器--Heron 论文笔记之Heron架构标签(空格分隔): Streaming-process realtime-process Heron Architecture ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
Multimodal —— 看图说话（Image Caption）任务的论文笔记（一）评价指标和NIC模型
看图说话(Image Caption)任务是结合CV和NLP两个领域的一种比较综合的任务,Image Caption模型的输入是一幅图像,输出是对该幅图像进行描述的一段文字.这项任务要求模型可以识别图 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...
论文笔记(2)：A fast learning algorithm for deep belief nets.
论文笔记(2):A fast learning algorithm for deep belief nets. 这几天继续学习一篇论文,Hinton的A Fast Learning Algorithm ...
论文笔记：Towards Diverse and Natural Image Descriptions via a Conditional GAN
论文笔记:Towards Diverse and Natural Image Descriptions via a Conditional GAN ICCV 2017 Paper: http://op ...

随机推荐

Linux内核开发进阶书籍推荐(不适合初学者)
Linux内核开发进阶书籍推荐(不适合初学者) 很早之前就想写一篇文章总结一下Linux Kernel开发的相关资料,项目的原因,再加上家里的一些事情,一直没能找到闲暇,今天终于有些时间,希望可以完成 ...
梳理vue双向绑定的实现原理
Vue 采用数据劫持结合发布者-订阅者模式的方式来实现数据的响应式,通过Object.defineProperty来劫持数据的setter,getter,在数据变动时发布消息给订阅者,订阅者收到消息后 ...
spring boot + vue + element-ui全栈开发入门——项目部署
前言常用的部署方式有两种: 1.是把生成好的静态页面放到spring boot的static目录下,与打包后的spring boot项目一起发布,当spring boot运行起来后,自然而然就能访 ...
生产环境nginx配置文件(带https安全认证)
#user www www; worker_processes 2; error_log logs/error.log info; pid /usr/local/nginx/nginx.pid; wo ...
组件 restful_API
1 token 认证 2 权限 3 注册器和响应 4 频率组件
centos7安装pip
转自:https://www.cnblogs.com/mangoVic/p/6428369.html 默认情况下,centos7是没有pip的,可以通过如下命令安装首先安装epel扩展源: yum ...
NOIP2015题解
D1T1模拟 #include<bits/stdc++.h> #define re(i,l,r) for(int i=(l);i<=(r);i++) using namespace ...
ldap认证jupyter notebook
虽然jupyter hub是支持ldap的,见ldapauthenticator: 但是登录成功后似乎要以登录用户名启动notebook,而登录用户在服务器上不存在,于是500了: 在服务器上通过pa ...
关于Axure RP软件的介绍——软件工程实践第二次个人作业
关于Axure RP软件的介绍——软件工程实践第二次个人作业 Axure RP是一个非常专业的快速原型设计的一个工具,客户提出需求,然后根据需求定义和规格.设计功能和界面的专家能够快速创建应用软件或W ...
vmware中centos6.7系统图形化安装Oracle显示乱码问题解决
root下: 修改环境属性 vi /etc/sysconfig/i18n LANG="en_US.UTF-8 1.在每次调用图形界面以前,我们使用export临时设置LANG(ORACLE ...