论文阅读笔记：【Transforming Auto-encoders】

【Transforming Auto-encoders】: G E Hinton, A Krizhevsky, S D Wang. Transforming auto-encoders[C]. //ICANN2011

Introduction 第三段 Page 2

首先需要明确的是一个capsule本身代表了一个visual entity的隐式定义。它的输入是一个图像（图像块），它的输出包括两个部分：（1）probability，即输入的图像属于这个capsule所隐式定义的entity的可能程度，这是一个标量；（2）instantiation parameter，即当前这个图像块相对于这个capsule本身定义的entity的pose，这是一个向量。

举一个例子，假如有一个capsule，本身是隐式定义了一个鼻子，这个鼻子我们假设是一个正正规规，大小合适的鼻子，我们称之为canonical entity，然后由于环境条件（比如光照，照射角度），我们有一个图像块（一个倾斜的鼻子），我们将这个倾斜的鼻子表述为instantiation entity，这个instantiation entity就是当前这个capsule的输入，如果这个capsule能够work的话，他的probability输出应该是一个大值（即这个capsule能够识别出歪鼻子也是鼻子），他的instantiation parameters反应的就是这个instantiation entity相对于canonical entity的pose。

以上是我对capsule的认知。结合到这一段，Hinton认为capsule一个优势就是能够通过识别物体的part达到识别物体的whole的能力。

比如人脸识别，training set中的特定人脸，我们可以认为是一个canonical entity，这里我把它称为canonical face，然后由于环境条件的问题，我们得到同一个人的另一张图像，比如一个侧脸。

基于这样的认知：一个人鼻子和嘴巴的空间关系大致是固定的，正面照，鼻子和嘴巴是什么关系，侧面照，也有类似的空间关系，即文中所述的viewpoint-invariance.

我们现在有三个capsule，A隐式定义了这个人的nose，B隐式定义了这个人的mouth，在A和B的上面有一个C，隐式定义了这个人的face。

TA表示canonical nose和instantiation nose之间的转换关系

TAC表示nose和face之间的坐标转换关系

显然TA和TAC都是我们可以学习到的。进一步的，我的一个猜想，这个TA是不是就是A这个capsule中一些参数，比如类似于CNN中filter的weight，来表示的，而C实际上的输入应该是A的输出，所以TAC就是C这个capsule的一些参数表示的。下面这个TC就是这两个参数的某种combination。

TC表示canonical face和instantiation face之间的转换关系，这个是未知的。

我们可以从TA和TAC得到一个TC，即文中所述一个prediction，也可以从TB和TBC得到一个TC，另一个prediction。基于前面所述的viewpoint-invariance，如果当前的这个instantiation face和canonical face表示的是同一个人的face，那么这两个prediction应该差不多，即文中所述的these predictions are a good match。如果两个prediction差太多，那么这个instantiation face可能就不是canonical face中的那个人。

更进一步，我们可以从两个TC去取average，进而得到一般的情况下instantiation face和canonical face之间的关系（这两个face是同一个人）。

基于以上我们就可以通过parts来识别whole。

论文中这段文字也进一步说明了capsule的输出就是当前instantiation相对于canonical的一种pose。

论文阅读笔记：【Transforming Auto-encoders】的更多相关文章

论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...
论文阅读笔记 Word Embeddings A Survey
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
[置顶] 人工智能（深度学习）加速芯片论文阅读笔记（已添加ISSCC17，FPGA17...ISCA17...）
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于 ...
Nature/Science 论文阅读笔记
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science l ...
论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
论文阅读笔记（十八）【ITIP2019】：Dynamic Graph Co-Matching for Unsupervised Video-Based Person Re-Identiﬁcation
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① P ...
[论文阅读笔记] GEMSEC，Graph Embedding with Self Clustering
[论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构解决问题主要贡献算法原理参考文献 (1) 解决问题已经有一些工作在使用学习 ...
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构解决问题主要贡献算法 ...

随机推荐

整理this笔记
1.在浏览器全局环境中this指向的是Window console.log(this); //Window 2.在事件处理函数中的this,这个事件是由谁触发,this就指向谁 3.直接执行一个函数的 ...
若依项目分模块集成uflo2
关于若依分模块创建项目可参考:https://www.cnblogs.com/conswin/p/9766186.html 了解uflo2,uflo2是一套由BSTEK自主研发的基于Java的工作流引 ...
一次完整的http事务的过程
1.域名解析 2.发起TCP三次握手 3.建立TCP连接以后发起http请求 4.服务器端响应请求,浏览器得到html代码 5.浏览器解析html代码并请求html中的资源 6.浏览器对页面进行渲染呈 ...
学习笔记-AngularJs（十）
前面一直在说自定义指令,但是却一直没有一次系统地去了解,现在需要我们一起来学习如何去使用自定义指令,去丰富html标签.属性,实现多元化.多功能的标签(或是属性).辣么,啥是指令?要了解指令,首先需要 ...
Win10系列：C#应用控件基础7
Slider控件 Slider控件包含一个滑动条.一个滑动块和一个取值范围,沿滑动条移动滑动块可以在取值范围内改变Slider控件的值.Slider控件的用途很广泛,例如可以使用Slider控件来设置 ...
jQ如何选中被选中的单选按钮的值
alert($("label input[name=logintpye]:checked").val());
C# MVC 微信支付教程系列之公众号支付
微信支付教程系列之公众号支付今天,我们接着讲微信支付的系列教程,前面,我们讲了这个微信红包和扫码支付.现在,我们讲讲这个公众号支付.公众号支付的应用环境常见的用户通过公众号,然后 ...
JVM的永久代会发生垃圾回收吗？
垃圾回收不会发生在永久代中.当永久代满或者超过临界值时,就会触发完全垃圾回收(Full GC).如果仔细查看垃圾收集器中的输出信息,就会发现永久代也是被回收的.这就是正确的永久代大小对避免Full G ...
SQL-43 将所有to_date为9999-01-01的全部更新为NULL,且 from_date更新为2001-01-01。
题目描述将所有to_date为9999-01-01的全部更新为NULL,且 from_date更新为2001-01-01.CREATE TABLE IF NOT EXISTS titles_test ...
LNMP(二)
第二十一课 LNMP(二) 目录一.默认虚拟主机二.Nginx用户认证三.Nginx域名重定向四.Nginx访问日志五.Nginx日志切割六.静态文件不记录日志和过期时间七.Nginx防 ...

论文阅读笔记：【Transforming Auto-encoders】

论文阅读笔记：【Transforming Auto-encoders】的更多相关文章

随机推荐

热门专题