【Transforming Auto-encoders】: G E Hinton, A Krizhevsky, S D Wang. Transforming auto-encoders[C]. //ICANN2011

Introduction 第三段 Page 2

首先需要明确的是一个capsule本身代表了一个visual entity的隐式定义。它的输入是一个图像(图像块),它的输出包括两个部分:(1)probability,即输入的图像属于这个capsule所隐式定义的entity的可能程度,这是一个标量;(2)instantiation parameter,即当前这个图像块相对于这个capsule本身定义的entity的pose,这是一个向量。

举一个例子,假如有一个capsule,本身是隐式定义了一个鼻子,这个鼻子我们假设是一个正正规规,大小合适的鼻子,我们称之为canonical entity,然后由于环境条件(比如光照,照射角度),我们有一个图像块(一个倾斜的鼻子),我们将这个倾斜的鼻子表述为instantiation entity,这个instantiation entity就是当前这个capsule的输入,如果这个capsule能够work的话,他的probability输出应该是一个大值(即这个capsule能够识别出歪鼻子也是鼻子),他的instantiation parameters反应的就是这个instantiation entity相对于canonical entity的pose。

以上是我对capsule的认知。结合到这一段,Hinton认为capsule一个优势就是能够通过识别物体的part达到识别物体的whole的能力。

比如人脸识别,training set中的特定人脸,我们可以认为是一个canonical entity,这里我把它称为canonical face,然后由于环境条件的问题,我们得到同一个人的另一张图像,比如一个侧脸。

基于这样的认知:一个人鼻子和嘴巴的空间关系大致是固定的,正面照,鼻子和嘴巴是什么关系,侧面照,也有类似的空间关系,即文中所述的viewpoint-invariance.

我们现在有三个capsule,A隐式定义了这个人的nose,B隐式定义了这个人的mouth,在A和B的上面有一个C,隐式定义了这个人的face。

TA表示canonical nose和instantiation nose之间的转换关系

TAC表示nose和face之间的坐标转换关系

显然TA和TAC都是我们可以学习到的。进一步的,我的一个猜想,这个TA是不是就是A这个capsule中一些参数,比如类似于CNN中filter的weight,来表示的,而C实际上的输入应该是A的输出,所以TAC就是C这个capsule的一些参数表示的。下面这个TC就是这两个参数的某种combination。

TC表示canonical face和instantiation face之间的转换关系,这个是未知的。

我们可以从TA和TAC得到一个TC,即文中所述一个prediction,也可以从TB和TBC得到一个TC,另一个prediction。基于前面所述的viewpoint-invariance,如果当前的这个instantiation face和canonical face表示的是同一个人的face,那么这两个prediction应该差不多,即文中所述的these predictions are a good match。如果两个prediction差太多,那么这个instantiation face可能就不是canonical face中的那个人。

更进一步,我们可以从两个TC去取average,进而得到一般的情况下instantiation face和canonical face之间的关系(这两个face是同一个人)。

基于以上我们就可以通过parts来识别whole。

论文中这段文字也进一步说明了capsule的输出就是当前instantiation相对于canonical的一种pose。

论文阅读笔记:【Transforming Auto-encoders】的更多相关文章

  1. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  2. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  3. 论文阅读笔记 Word Embeddings A Survey

    论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

  4. 论文阅读笔记 Improved Word Representation Learning with Sememes

    论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...

  5. [置顶] 人工智能(深度学习)加速芯片论文阅读笔记 (已添加ISSCC17,FPGA17...ISCA17...)

    这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...

  6. Nature/Science 论文阅读笔记

    Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...

  7. 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification

    Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...

  8. 论文阅读笔记(十八)【ITIP2019】:Dynamic Graph Co-Matching for Unsupervised Video-Based Person Re-Identification

    论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① P ...

  9. [论文阅读笔记] GEMSEC,Graph Embedding with Self Clustering

    [论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 已经有一些工作在使用学习 ...

  10. [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks

    [论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法 ...

随机推荐

  1. Matlab:椭圆方程的导数边值问题

    tic; clear clc N=; M=*N; h1=/M; h2=/N; x=:h1:; y=:h2:; fun=inline('exp(x)*sin(pi*y)','x','y'); f=inl ...

  2. ID绘图工具的使用5.29

    1.按住ALT拖动矩形工具,以中心绘制矩形.  绘制矩形的过程中,按住空格键可以调整矩形的位置. 2选择矩形工具,单击,可以精确输入尺寸. 3“窗口‘”信息“面板调出来.这样在绘制的时候可以边绘制边看 ...

  3. 微信开发】【Asp.net MVC】-- 微信分享功能

    [微信开发][Asp.net MVC]-- 微信分享功能 2017-01-15 09:09 by stoneniqiu, 12886 阅读, 15 评论, 收藏, 编辑 内嵌在微信中的网页,右上角都会 ...

  4. encodeURIComponent编码与解码

    问题:JavaScript用encodeURIComponentt编码后无法再后台解码的问题. 目前写法: window.self.location="list.jsp?searchtext ...

  5. 在云服务器跑Python程序

    最近在鼓弄这TensorFlow的模型,有些模型实在是太大了,CPU占用率100%不说,还一跑起来就跑个大半天,严重影响了学习的进度,所以由于手里刚有一个不大使用的云服务器,配置虽然不咋地,至少还能跑 ...

  6. Java容器解析系列(5) AbstractSequentialList LinkedList 详解

    AbstractSequentialList为顺序访问的list提供了一个骨架实现,使实现顺序访问的list变得简单; 我们来看源码: /** AbstractSequentialList 继承自 A ...

  7. 网络性能测试工具-Iperf

    一.简单介绍 Iperf是一个网络性能测试工具,Iperf可以测试TCP和UDP带宽质量,Iperf可以测量最大TCP带宽,具有多种参数和UDP特性.Iperf可以报告带宽,延迟抖动和数据包丢失.利用 ...

  8. java语言编写矩阵的四则运算

    题目要求如下: 设计程序实现矩阵的四则运算 设计要求: (1) 实现矩阵的四则运算. (2) 考虑实现带变元的矩阵计算. (3)考虑实现矩阵的特征值和特征向量的计算. 我使用java语言写的 目录结构 ...

  9. 如何搭建并使用便携式 4G/LTE 伪基站研究移动安全

    此文章PDF文档下载地址:点击下载 0x00 前言 在移动互联网深入普及和物联网开始规模应用的今天,网络安全公司怎能不研究移动安全,要研究移动安全,怎能没有4G/LTE伪基站研究测试环境? 本文介绍如 ...

  10. 在myeclipse中maven项目关于ssh整合时通过pom.xml导入依赖是pom.xml头部会报错

    错误如下 ArtifactTransferException: Failure to transfer org.springframework:spring-jdbc:jar:3.0.5.RELEAS ...