CVPR2021 | 华为诺亚实验室提出Transformer in Transformer

CV技术指南（公众号） 2024-09-07 16:29:53 原文

前言：

transformer用于图像方面的应用逐渐多了起来，其主要做法是将图像进行分块，形成块序列，简单地将块直接丢进transformer中。然而这样的做法忽略了块之间的内在结构信息，为此，这篇论文提出了一种同时利用了块内部序列和块之间序列信息的transformer模型，称之为Transformer-iN-Transformer，简称TNT。

主要思想

TNT模型把一张图像分为块序列，每个块reshape为像素序列。经过线性变换可从块和像素中获得patch embedding和pixel embedding。将这两者放进堆叠的TNT block中学习。

在TNT block中由outer transformer block和inner transformer block组成。

outer transformer block负责建模patch embedding上的全局相关性，inner block负责建模pixel embedding之间的局部结构信息。通过把pixel embedding线性映射到patch embedding空间的方式来使patch embedding融合局部信息。为了保持空间信息，引入了位置编码。最后class token通过一个MLP用于分类。

通过提出的TNT模型，可以把全局和局部的结构信息建模，并提高特征表示能力。在精度和计算量方面，TNT在ImageNet和downstream 任务上有非常优异的表现。例如，TNT-S所在ImageNet top-1上在只有5.2B FLOPs的前提下实现了81.3%，比DeiT高了 1.5%。

一些细节

对照这个图，用几个公式来介绍。

MSA为Multi-head Self-Attention。

MLP为Multi Layer Perceptron。

LN为Layer Normalization。

Vec为flatten。

加号表示残差连接。

前两个公式是inner transformer block，处理块内部的信息，第三个公式是将块内部的信息通过线性映射到patch embedding空间，最后两个公式是outer transformer block，处理块之间的信息。

位置编码的方式看下面的图就足了。

模型参数量和计算量如下表所示：

Conclusion

最近把公众号(CV技术指南)所有的技术总结打包成了一个pdf，在公众号中回复关键字“技术总结”可获取。

本文来源于公众号CV技术指南的技术总结系列，更多内容请扫描文末二维码关注公众号。

CVPR2021 | 华为诺亚实验室提出Transformer in Transformer的更多相关文章

学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ，在回归与分类任务中表现超群
学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ,在回归与分类任务中表现超群机器之心发表于机器之心订阅 499 广告关闭 11.11 智慧上云云服务器企业新用户优先购,享双11同等 ...
华为终端开放实验室Android Beta 4测试能力上线
7月26日,Android P Beta 4发布(即Android P DP5),此版本为开发者最后一个预览版本,也预示着Android P正式版即将与大家见面. 为保证开发者在正式版本来临前做 ...
华为终端开放实验室Android P Beta 4测试能力上线
7月26日,Android P Beta 4发布(即Android P DP5),此版本为开发者最后一个预览版本,也预示着Android P正式版即将与大家见面. 为保证开发者在正式版本来临前做好充分 ...
（转）The Evolved Transformer - Enhancing Transformer with Neural Architecture Search
The Evolved Transformer - Enhancing Transformer with Neural Architecture Search 2019-03-26 19:14:33 ...
Batch Size对神经网络训练的影响
前言这篇文章非常全面细致地介绍了Batch Size的相关问题.结合一些理论知识,通过大量实验,文章探讨了Batch Size的大小对模型性能的影响.如何影响以及如何缩小影响等有关内容. 本文来 ...
经典论文系列 | 缩小Anchor-based和Anchor-free检测之间差距的方法：自适应训练样本选择
前言本文介绍一篇CVPR2020的论文,它在paperswithcode上获得了16887星,谷歌学术上有261的引用次数. 论文主要介绍了目标检测现有的研究进展.anchor-based和 ...
计算机视觉--CV技术指南文章汇总
前言本文汇总了过去本公众号原创的.国外博客翻译的.从其它公众号转载的.从知乎转载的等一些比较重要的文章,并按照论文分享.技术总结三个方面进行了一个简单分类.点击每篇文章标题可阅读详细内容欢迎关注 ...
自动网络搜索（NAS）在语义分割上的应用（一）
[摘要]本文简单介绍了NAS的发展现况和在语义分割中的应用,并且详细解读了两篇流行的work:DARTS和Auto-DeepLab. 自动网络搜索多数神经网络结构都是基于一些成熟的backbone, ...
ACNet：用于图像超分的非对称卷积网络
编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.13634 Code:https://github.com/hellloxiaotian/A ...

随机推荐

ios打包的IDP证书的创建方法
在我们打包ios应用的时候,需要一个IDP证书. 那么我们如何生成这个IDP证书呢?网上介绍的方法都是需要使用mac电脑,然后用mac电脑的钥匙串访问的功能先生成csr文件,然后去苹果开发者生成,然而 ...
[UNP] TCP 多进程服务器
UNP Part-2: Chapter 5. TCP Client/Server Example 的读书笔记. 阅读本文前,建议先阅读多线程服务器的实现,熟悉常见的 TCP 网络通信 API 的基本使 ...
LanQiao-297(快速排序)
快速排序 LanQiao-297 #include<iostream> #include<cstdio> #include<algorithm> #include& ...
普通的一天，说一个普通的XML
什么是XML XML全称是Extensible Markup Language,译为"可扩展标记语言",常用来存储和传输信息. XML的结构我们经常看到的XML文件是这个样子的: ...
记录自己第一次搭建本地fabric框架
写在前,第一次搭建fabric框架,对于小白的我很是艰辛,参考了很多博主的博客才最终完成,在此记录一下搭建过程. 参考的网站 https://blog.csdn.net/smallone233/art ...
java 给时间增加时间得到一个新的时间（日期）
SimpleDateFormat df=new SimpleDateFormat("yyyy-MM-dd") LocalDate expirationDate String exp ...
「POJ Challenge」生日礼物
Tag 堆,贪心,链表 Solution 把连续的符号相同的数缩成一个数,去掉两端的非正数,得到一个正负交替的序列,把该序列中所有数的绝对值扔进堆中,用所有正数的和减去一个最小值,这个最小值的求法与「 ...
python之对象与类
1.类的定义类是一个用户定义类型,类似与c语言中的结构体 class <ClassName>: "类的帮助信息"#类文档字符串 class_suite #类体其中C ...
【MCU】移植AT32库&FreeRTOS教程
目录前言 1. 移植AT库 1.1 移植内核相关文件 1.2 移植芯片型号相关文件 1.3 移植芯片外设驱动库 1.4 移植配置文件及中断回调函数文件 2. 移植FreeRTOS源码 2.1 获取 ...
K8S单集群桌面安装笔记【k8s-for-docker-desktop】
一.K8S集群基本的拓扑结构二.下载 k8s-for-docker-desktop k8s桌面单集群安装,基本上选择 k8s-for-docker-desktop或者minikube两类,本文采用前 ...