StackGAN 阅读笔记

ManWingloeng 2024-10-14 00:00:57 原文

StackGAN 阅读笔记

StackGAN论文下载链接(arxiv)

创新点

提出多尺度的GAN
- Stage-I GAN
- Stage-II GAN

Stage-I GAN 主要是根据文本描述抓取目标物体的主要形状轮廓和一些基础色块，生成低分辨率的图片。

Stage-II GAN 修正Stage-I生成的低分辨率图片，并且根据再次阅读文本描述完善细节，生成高分辨率图片。

Conditioning Augmentation(条件增强技术)

如果直接把 \(\varphi_t\) 放入生成器，这个特征空间的维度一般比较高（>100）而训练数据是有限的，所以会造成特征空间不连续，不利于生成器的训练。

而作者提出的Conditioning Augmenetation是从独立的高斯分布 \(N(\mu (\varphi _{t})\) , \(\Sigma (\varphi _{t}))\) 中随机采样得到隐含变量，再放入生成器。其中 \(\mu (\varphi _{t})\) 和 \(\Sigma (\varphi _{t})\) 是关于 \(\varphi _{t}\) 的均值和方差函数。

另外，作者为了增强平滑度和避免过拟合，为生成器的损失函数增加了以下的正则项：

\[
D_{KL}(\mathcal{N}(\mu(\varphi_t),\Sigma(\varphi_t)) || \mathcal{N}(0,I))\tag{2}
\]

损失函数

GAN的原始目标函数：

\[
\begin{split}
minmaxV(D,G)=&\mathbb{E}_{x_\thicksim{p_{data}}}[logD(x)]+\\
&\mathbb{E}_{z\thicksim{p_{data}}}[log(1-D(G(z)))]
\end{split}\tag{1}
\]

StackGAN的目标函数：

\[
\begin{split}
\mathcal{L}_{D_{0}}=&\mathbb{E}_{(I_0,t)\thicksim p_{data}}[logD_0(I_0,\varphi_t)]+\\
&\mathbb{E}_{z\thicksim p_z,t\thicksim p_{data}}[log(1-D_0(G_0(z,\hat{c}),\varphi_t)],
\end{split}\tag{3}
\]

\[
\begin{split}
\mathcal{L}_{G_{0}}=&\mathbb{E}_{z\thicksim p_z,t\thicksim p_{data}}[log(1-D_0(G_0(z,\hat{c}),\varphi_t)]+\\
&\lambda D_{KL}(\mathcal{N}(\mu(\varphi_t),\Sigma(\varphi_t)) || \mathcal{N}(0,I)),
\end{split}\tag{4}
\]

实验中作者把 $\lambda $ 全部都设置为了1。

实验数据

CUB contains 200 bird species with 11,788 images
Oxford-102 [21]
Oxford-102 contains 8,189 images of flowers from 102 different cat-
egories.
In our experiments, we directly use the pre-trained Inception model for COCO dataset

实验效果

复现

StackGAN 阅读笔记的更多相关文章

阅读笔记 1 火球 UML大战需求分析
伴随着七天国庆的结束,紧张的学习生活也开始了,首先声明,阅读笔记随着我不断地阅读进度会慢慢更新,而不是一次性的写完,所以会重复的编辑.对于我选的这本 <火球 UML大战需求分析>,首先 ...
[阅读笔记]Software optimization resources
http://www.agner.org/optimize/#manuals 阅读笔记Optimizing software in C++ 7. The efficiency of differe ...
《uml大战需求分析》阅读笔记05
<uml大战需求分析>阅读笔记05 这次我主要阅读了这本书的第九十章,通过看这章的知识了解了不少的知识开发某系统的重要前提是:这个系统有谁在用?这些人通过这个系统能做什么事? 一般搞清楚这 ...
<<UML大战需求分析>>阅读笔记(2)
<<UML大战需求分析>>阅读笔记(2)> 此次读了uml大战需求分析的第三四章,我发现这本书讲的特别的好,由于这学期正在学习设计模式这本书,这本书就讲究对uml图的利用 ...
uml大战需求分析阅读笔记01
<<UML大战需求分析>>阅读笔记(1) 刚读了uml大战需求分析的第一二章,读了这些内容之后,令我深有感触.以前学习uml这门课的时候,并没有好好学,那时我认为这门课并没有什 ...
Hadoop阅读笔记（七）——代理模式
关于Hadoop已经小记了六篇,<Hadoop实战>也已经翻完7章.仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序.单表链接等,想得其精髓,还需深入内部. 按照<Ha ...
Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
Hadoop阅读笔记（五）——重返Hadoop目录结构
常言道:男人是视觉动物.我觉得不完全对,我的理解是范围再扩大点,不管男人女人都是视觉动物.某些场合(比如面试.初次见面等),别人没有那么多的闲暇时间听你诉说过往以塑立一个关于你的完整模型.所以,第一眼 ...
Hadoop阅读笔记（四）——一幅图看透MapReduce机制
时至今日,已然看到第十章,似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁,想想后面还有一半的行程没走,我觉得这样“有口无心”的学习方式是不奏效的,或者是收效甚微的.如果有幸能有大牛路过, ...

随机推荐

【2017下集美大学软工1412班_助教博客】团队作业3——需求改进&系统设计团队成绩公示
作业要求团队作业3--需求改进&系统设计团队评分结果 Total QH BZ GJ MS SXX WBS SJ JG SJK JH NR CS PHILOSOPHER 需求改进&系 ...
kudu基础入门
1.kudu介绍 1.1 背景介绍在KUDU之前,大数据主要以两种方式存储: (1)静态数据: 以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景.这类存储的局限性是数据无法进行随机 ...
2.python数据结构的性能分析
一.引言 - 现在大家对大O 算法和不同函数之间的差异有了了解.本节的目标是告诉你 Python 列表和字典操作的大O 性能.然后我们将做一些基于时间的实验来说明每个数据结构的花销和使用这些数据结 ...
洛谷P1803
#include <iostream>#include <algorithm>#include <cstdio>using namespace std; struc ...
模糊查询SSD_DATA盘谁使用率高？
select sum(bytes / 1024 / 1024 / 1024), d.owner, d.segment_name, d.segment_type f ...
pytorch 绘制训练曲线；服务器端训练，本地浏览器显示，本地打不开；tensorboard端口被占
代码里面用tensorboard保存了训练的日志在logs目录里面用tensorboard命令打开日志目录:tensorboard --logdir="./logs/" 会显示一 ...
《MySQL：菜鸟入门系列》
关于数据库相关知识,几乎是互联网从业者逃不开的一个必备技能,特别是对于DB.开发和测试童鞋来说,更显得重要... 关于MySQL,推荐如下几本书: 入门级:<MySQL必知必会> 进阶级: ...
Win7系统的任务管理器显示不全
Win7系统的任务管理器显示不全:如下图所示首先要说明的是:出现这种现象是正常的,因为这种样式是任务管理器的精简模式. 还原方法:双击任务管理器四周的空白边框,即可恢复初始模式. 效果图如下:
Codeforces round 1100
Div 2 532 我对交互一无所知只能寄期望与NOI和省选不出交互吧... E 这个题,真的是耻辱... 其实非常简单,就是二分+判环... 那么就直接二分答案+拓扑排序即可... (我居然在考试 ...
Liunx-cp命令
1. 复制当前目录的test文件夹到/201904 目录出现如下截图问题是因为test目录下还有文件,所以得加-r,使用递归拷贝.我现在用这个命令拷贝文件都加-r了,不管有文件还是没文件 2.复制 ...