Variational Capsules for Image Analysis and Synthesis 

2018-07-16 16:54:36

Paper: https://arxiv.org/pdf/1807.04099.pdf

随着深度学习的崛起,已经有很多不同的应用领域都取得了巨大的成功,其中就包括:image analysis 以及 synthesis

Image analysis 通常是指:用一个判别性模型从图像中去抽取信息;

Image synthesis 是指:用产生式模型根据一个给定的分布,来产生图像样本。

这两个任务是高度相关的,并且希望能够互相补充和促进。不同的方法被用来分析这两个模块, analysis blocks (即:分类器),synthesis blocks (即:自回归模型,GAN, VAEs) 等。在这些方法中,analysis blocks 被用来产生可控制的条件来给 synthesis block,或者提供给生成的图像一些约束条件。但是,大部分的条件下,synthesis 和 analysis blocks 都不是联合进行训练的,所以对于同时解决这两个问题的思路来说,得到的可能不是最优解。所以,构建一个联合的框架来处理这两个任务,仍然是一个没有被解决的问题,使得这两个任务可以相互补充和协助。

为了克服上述困难,我们提出一种新的方法,即:变分胶囊网络(Variational Capsule Network (VSs)),在一个联合的判别和产生式的框架下,进行图像的建模。我们知道 capsule 最开始的时候,是由大佬 hinton 提出的,并且将其建模为:一组神经元的集合(groups of neurons whose activity vector represent vairous properties of particular entity)。所提出的 variational capsules 是一种新型的 capsule,which use the divergence of each capsule with a prior distribution rather than the length of the activity vector to represent the probability that an entity exsits. 划重点!!!这里意思是:本文所提出的新的 capsule 是用 先验分布的 KL-散度来衡量对应的示例是否存在,而不是依赖于激活向量的长度。变分胶囊将一张图像建模为多个示例的混合,将已有的示例映射到 posterior,使得其能够与 prior 恰当的进行匹配。

如图1所示:我们的框架服从 VAE 一样的结构,是有两个部分构成的:

an encoder: mapping the input images into variatinoal capsules;

a generator (or decoder): generating images from masked varaitional capsules.

在训练阶段,the encoder 目标是检测或者分类现有的 entity,然后使得激活的胶囊能够很好的服从先验分布,

      the decoder 尝试从激活向量中去重构原始的图像。

在测试阶段,the encoder 可以通过预测胶囊,来分析输入的图像;

the decoder 通过从先验分布中进行采样,从而可以合成一个新的样本;

本文的创新可以分为如下四个部分:

1. 提供了一种新型的 capsule,即:variational capsules;

2. 提供了一种图像分析和合成的统一框架;

3. 提供了一种新的技术来进行基于条件的图像生成(conditional image generation);

4. 充分的实验验证了本文方法的有效性。

我们先来看看原始的 capsule network 训练的时候,它用的是什么距离?

而本文则尝试用 KL-D 来度量,即:

来看本文 3.1 小节:

The capsules proposed in Hinton's paper use the length of the instantiation vector to represent the probability of the existing entity.

为了促进新型胶囊的采样,我们设计的胶囊能够以概率的方式:the activation capsules follow a known prior distribution while the noactive ones do the opposite.

服从 VAEs,我们选择 KL 散度 作为度量两个分布匹配程度的度量方法。所以,带有先验分布的胶囊网络的 KL-散度,代表了一个胶囊示例是否存在的概率,i.e. 对应已有示例的胶囊有较小的 KL散度,而不存在的示意,则有较大的 KL 距离。

Following the original VAEs [10], the prior p(z) is assumed to follow isotropic multivariate Gaussian distribution, i.e., p(z) ∼ N(0; I),

while the proposed capsule qφ(c|x) follows multivariate Gaussian distribution whose mean and covariance are parameterized by N(µ(x); diag(σ2(x))).

The KL- divergence of each capsule c with the prior p(z), i.e., DKL(qφ(c|x)||p(z)), can be computed using Eq. (2).

Let LKL(c) denote the above divergence, we use a separate margin loss Lk for each capsule ck (where k indicates the index of the capsule), which is defined as:

另外,为了获得更好的结果,本文结合了 MSE loss 以及 对抗loss,所以总体的训练loss 函数为:

其中,adversarial loss and mse loss 的损失函数分别为:


论文笔记:Variational Capsules for Image Analysis and Synthesis的更多相关文章

  1. 论文笔记:Capsules for Object Segmentation

    Capsules for Object Segmentation 2018-04-16  21:49:14 Introduction: ----

  2. 基于3D卷积神经网络的人体行为理解(论文笔记)(转)

    基于3D卷积神经网络的人体行为理解(论文笔记) zouxy09@qq.com http://blog.csdn.net/zouxy09 最近看Deep Learning的论文,看到这篇论文:3D Co ...

  3. Deep Learning论文笔记之(三)单层非监督学习网络分析

    Deep Learning论文笔记之(三)单层非监督学习网络分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感 ...

  4. 【论文笔记】SamWalker: Social Recommendation with Informative Sampling Strategy

    SamWalker: Social Recommendation with Informative Sampling Strategy Authors: Jiawei Chen, Can Wang, ...

  5. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  6. 论文笔记之:Visual Tracking with Fully Convolutional Networks

    论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015  CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...

  7. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  8. Twitter 新一代流处理利器——Heron 论文笔记之Heron架构

    Twitter 新一代流处理利器--Heron 论文笔记之Heron架构 标签(空格分隔): Streaming-process realtime-process Heron Architecture ...

  9. Deep Learning论文笔记之(六)Multi-Stage多级架构分析

    Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些 ...

随机推荐

  1. Unknown Treasure (卢卡斯 + 孙子定理, 模板题)

    Unknown Treasure 参考链接 : https://www.cnblogs.com/linyujun/p/5199684.html 卢卡斯定理 : C(n, m) % p  =  C(n ...

  2. hdu5302 构造

    题意:给你一个无向图,它的边要么是黑色要么是白色,且图上的每个点最多与两个黑边两个白边相连.现在,Demon将图分成两部分,一部分包含所有的黑边,另一部分包括所有的白边,给你白边图中度为0的点的数量w ...

  3. timestamp与timedelta,管理信息系统概念与基础

    1.将字符串‘2017年10月9日星期一9时10分0秒 UTC+8:00’转换为timestamp. 2.100天前是几号?   今年还有多少天? #timestamp与timedelta from ...

  4. 关于ajax原理介绍

    1.ajax技术的背景 不可否认,ajax技术的流行得益于google的大力推广,正是由于google earth.google suggest以及gmail等对ajax技术的广泛应用,催生了ajax ...

  5. AttributeError: module 'DBBase' has no attribute 'DBBase'

    AttributeError: module 'DBBase' has no attribute 'DBBase' pycharm不会将当前文件目录自动加入自己的sourse_path.右键make_ ...

  6. 2017年3月29日 webService入门理解 二

    前边说到了N多webService的概念. 其实,说白了,我个人理解的话,webService就是一个“概念”.就好像互联网一样,就是一个很虚幻,很高的一个概念.同样,webService也是.互联网 ...

  7. python 之xml.etree.ElementTree

    Element类型是一种灵活的容器对象,用于在内存中存储结构化数据. [注意]xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全. 每个element对象都具有以下属性: ...

  8. NFS客户端阻塞睡眠问题与配置调研

    Linux NFS客户端需要很小心地配置,否则在NFS服务器崩溃时,访问NFS的程序会被挂起,用ps查看,进程状态(STAT)处于D,意为(由于IO阻塞而进入)不可中断睡眠(如果是D+,+号表示程序运 ...

  9. 怎样从外网访问内网Linux系统?

    本地安装了一个Linux系统,只能在局域网内访问到,怎样从外网也能访问到本地的Linux系统呢?本文将介绍具体的实现步骤. 1. 准备工作 1.1 启动Linux系统 默认Linux系统ssh服务端端 ...

  10. Qt 文本文件的打开、新建、保存以及另存为

    我们平时在使用windows的notepad以及其他各种软件过程中,都会有保存文件和另存为两种功能,这两者不能混为一谈. 一.保存时有两种情况,一种是对于新创建的文件,一种是对于已有的文件,前者需要打 ...