《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

论文题目：《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》

论文作者：Qibin Hou, Zihang Jiang, Li Yuan et al.

论文发表年份：2022.2

模型简称：ViP

发表期刊： IEEE Transactions on Pattern Analysis and Machine Intelligence

Abstract

　　在本文中，我们提出了一种概念简单、数据高效的类似MLP的视觉识别体系结构——视觉置换器（Vision Permutator）。不同于最近的类似MLP的模型大都沿着平坦的空间维度编码空间信息。由于认识到二维特征表示所携带的位置信息的重要性，Vision Permutator通过线性投影分别对沿高度和宽度维度的特征表示进行编码。这使得Vision Permutator可以沿着一个空间方向捕获远程依赖关系，同时保持沿着另一个方向的精确位置信息。由此产生的位置敏感输出，然后以相互补充的方式聚合，形成感兴趣的对象的表达。Vision Permutator由纯1 × 1卷积组成，但可以对全局信息进行编码。Vision Permutator也消除了对自注意力的依赖，因此效率更高。开源代码： https://github.com/Andrew-Qibin/VisionPermutator

Method

　　Vision Permutator从与Vision Transformers类似的tokenization操作开始，它将输入图像统一地分割为小块，然后将它们映射到带有线性投影的token embedding。然后将形状为“height×width×channels”的结果token embeddings到Permutator block序列中，每个Permutator block由一个用于空间信息编码的Permute-MLP和一个用于通道信息混合的Channel - MLP组成。Permute-MLP层如下图所示，

　　Permute-MLP层由三个独立的分支组成，每个分支沿特定的维度编码特征，即高度、宽度或通道维度。Channel-MLP模块的结构与Transformer中的前馈层相似，包括两个完全连接的层，中间有一个GELU激活。公式如下：

　　对于Channel信息编码，只需要一个权重W_C∈R^C×C的全连接层，就可以对输入X进行线性投影，得到X_C。对于高度信息编码，首先对传入的分割好的每个tokens作维度变换（ex:Transpose the first (Height) dimension and the third (Channel) dimension: (H, W, C) → (C, W, H).）然后沿着通道维度连接它们作为Premute的输出，传入Linear Projection：连接权重为W_H∈R^C×C的全连接层，混合高度信息。再通过维度变换复原输入维度。对宽度信息编码作类似处理，最后讲三个分支的输出加和作为最后全连接层的输入。Linear Projection的输出公式表示如下：（最后输出再与input tokens作跳跃连接得到最终Permute-MLP的输出。）

　　Weighted Permute-MLP：上述方法只是简单地将所有三个分支的输出通过元素相加来融合。在这里，我们通过重新校准不同分支的重要性，进一步改进了上述Permute-MLP，并提出加权Permute-MLP。这可以通过利用分散注意力(split attention)实现。不同的是，分散注意力应用于X_H、X_W和X_C，而不是由分组卷积生成的一组张量。在下文中，我们默认使用Permutator中的加权Permute-MLP。

Experiment

　　与ImageNet上最近的类MLP模型比较Top-1精度，所有模型都是在没有外部数据的情况下进行训练的。在相同的计算量和参数约束下，我们的模型始终优于其他方法。

　　与ImageNet上的经典CNN和Vision Transformer的精度比较。所有模型都是在没有外部数据的情况下进行训练的。在相同的计算和参数约束下，我们的模型可以与一些强大的基于CNN和基于Transformer的模型竞争。

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记的更多相关文章

[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析（转）
https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...
论文笔记系列-Auto-DeepLab:Hierarchical Neural Architecture Search for Semantic Image Segmentation
Pytorch实现代码:https://github.com/MenghaoGuo/AutoDeeplab 创新点 cell-level and network-level search 以往的NAS ...
论文笔记——Rethinking the Inception Architecture for Computer Vision
1. 论文思想 factorized convolutions and aggressive regularization. 本文给出了一些网络设计的技巧. 2. 结果用5G的计算量和25M的参数. ...
论文笔记：Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells
Fast Neural Architecture Search of Compact Semantic Segmentation Models via Auxiliary Cells 2019-04- ...
论文笔记：ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware
ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 2019-03-19 16:13:18 Pape ...
论文笔记：DARTS: Differentiable Architecture Search
DARTS: Differentiable Architecture Search 2019-03-19 10:04:26accepted by ICLR 2019 Paper:https://arx ...
论文笔记：Progressive Neural Architecture Search
Progressive Neural Architecture Search 2019-03-18 20:28:13 Paper:http://openaccess.thecvf.com/conten ...
论文笔记：Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation
Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation2019-03-18 14:4 ...
论文笔记系列-DARTS: Differentiable Architecture Search
Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了 ...

随机推荐

迷宫类dp整合
这是迷宫类dp我自己取的名字,通常比较简单,上货简单模型数字三角形状态表示:f[i][j]表示起点第\(i\)行第\(j\)个数最短路径的长度状态转移:\(f[i][j] = max(f[i ...
【docker专栏7】容器自启动与守护进程停止后容器保活
本文为大家介绍容器自启动以及docker 守护进程挂掉或者docker升级的情况下,如何保证容器服务的正常运行.主要包含三个部分一.守护进程开机自启在我们安装docker的时候,介绍过启动dock ...
element多重校验报please transfer a valid prop path to form item
gitlab+jenkins自动构建jar包并发布
一.背景介绍: 公司软件都是java开发的,一般都会将java代码打包成jar包发布:为了减轻运维部署的工作量,合理偷懒,就需要自动化流程一条龙服务:开发将代码提交到gitlab--->jenk ...
内网渗透之Windows认证（二）
title: 内网渗透之Windows认证(二) categories: 内网渗透 id: 6 key: 域渗透基础 description: Windows认证协议 abbrlink: d6b7 d ...
完整代码：AgileFontSet迅捷字体设置程序
AgileFontSet用于快捷设置Windows系统字体和桌面图标间距,介绍参见:https://www.cnblogs.com/ybmj/p/11340105.html .这里提供AgileFon ...
Vue3系列11--Teleport传送组件
Teleport 是一种能够将我们的模板移动到 DOM 中 Vue app 之外的其他位置的技术,不受父级style.v-show等属性影响,但data.prop数据依旧能够共用的技术:类似于 Rea ...
Apache Dolphinscheduler3.0.0-beta-1 版本发布，新增FlinkSQL、Zeppelin任务类型
导读:近日,Apache Dolphin Scheduler 迎来了 3.0.0-beta-1 版本的正式发布.新版本主要针对 3.0.0-alpha 进行了代码和文档的修复,并引入了部分的功能,如支 ...
Luogu1879 [USACO06NOV]玉米田Corn Fields （状压DP）
曾经放弃的坑,都是坑 #include <iostream> #include <cstdio> #include <cstring> #include <a ...
使用dotnet-monitor分析在Kubernetes的应用程序：Sidecar模式
dotnet-monitor可以在Kubernetes中作为Sidecar运行,Sidecar是一个容器,它与应用程序在同一个Pod中运行,利用Sidecar模式使我们可以诊断及监控应用程序. 如下图 ...

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记

《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记的更多相关文章

随机推荐

热门专题