0.前言

相关资料：
- arxiv
- github
- 论文解读(CSDN)
论文基本信息：

作者单位：Facebook
发表时间：arxiv2022(2022.4.14)

1.针对的问题

　　1.之前的视觉Transformer关于嵌入维数(不包括线性投影)是线性的，但相对于token的数量是二次的，而在视觉范围内，token的数量通常与图像分辨率呈线性相关。因此，在严格使用自注意力的模型(如ViT)中，较高的图像分辨率会导致复杂度和内存使用量的二次增长。

　　2.卷积受益于一些归纳偏置，如局部性，平移不变性和二维邻域结构，而点积自注意力操作是一维全局操作，虽然视觉转换器中的MLP层是局部的和平移等变的，但其余的归纳偏差必须通过大量数据或高级训练技术和增强来学习。

2.主要贡献

　　1.提出邻域注意（NA）：一种简单而灵活的视觉注意机制，它将每个标记的接受域定位到其邻域。将该模块的复杂性和内存使用与自注意、窗口自注意和卷积进行了比较。

　　2.引入了邻域注意Transformer（NAT），这是一种新型的高效、准确、可扩展的分层Transformer。每一层之后都有一个下采样操作，将空间大小减少了一半。类似的设计也可以在最近许多基于注意力的模型中看到，比如Swin。与这些模型不同，NAT利用小核重叠卷积进行嵌入和下采样，而不是非重叠卷积。与Swin等现有技术相比，NAT还引入了一套更有效的架构配置。

　　3.证明了NAT在分类和下游视觉任务上的有效性，包括目标检测和语义分割。我们观察到，NAT不仅可以超越Swin，而且还可以超越新的卷积竞争者。NAT-Tiny仅使用4.3个GFLOPs和28M参数，在NmageNet上的准确率达到83.2%，在MS-COCO上的边界框mAP为51.4%，在ADE20k上的mIoU为48.4%

　　4.开放一个新的CUDA支持的PyTorch扩展，用于快速和高效地计算基于窗口的注意机制。除了支持2D邻域注意模块外，该扩展还将允许定制的padding值，strides和dilated neighborhoods，以及1D和3D数据。

3.方法

　　下面这个图展示了ViT，Swin和NAT的区别，标准VIT的attention计算是全局的，像第一图中红色的 token 和蓝色的 token 会全局的和所有的 token 进行计算。swin 是中间的两个图，第一步 token 的特征交互限制在局部窗口内。第二步窗口有shift，但 token 的特征交互仍然在局部的窗口内。最后一个图就是这个论文提出的 neighborhood attention transformer，NAT，所有 attention 的计算在7X7的邻域里进行。看起来和convolution一样，只是在一个 kernel 里面的范围内去做操作。但是和 convolution 不同的是，NAT里面是计算 attention，所以每一个 value 出来的权重是根据输入的这个值来决定的，而不是像卷积核里面那样训练好就固定的一个值。

　　下面是自注意力与邻域注意力的比较，自注意力允许每个tokens关注所有其他tokens，而邻域注意力将每个tokens的接受域定位到其周围的邻域。对于CHW的输入矩阵，Query 是某个位置一个 1XC的向量， key 是一个 3x3xC 的矩阵，两个矩阵逐元素相乘（尺寸不同进行 broadcast ），结果是 3x3xC，最后在 C 这个维度求和，得到3X3的相似度矩阵。用这个矩阵给 value 分配权重，最后合并为一个 1x1xC 的向量，就是 attention 的计算结果。

　　将(i,j)像素位置的邻域定义为ρ（i，j），每个像素的NA计算公式为

　　Q，K，V是X的线性投影，Bi，j表示相对位置偏差，当邻域超过输入大小时，就成了带额外位置偏差的自注意力。

　　网络的整体架构和当前方法一样，都是4阶段。每个阶段分辨率降低一半。不过，降分辨率使用的是步长为2的 3X3 卷积。第一步 overlapping tokenizer 使用的是2个3x3卷积，每个卷积的步长为2。

Neighborhood Attention Transformer概述的更多相关文章

Attention & Transformer
Attention & Transformer seq2seq; attention; self-attention; transformer; 1 注意力机制在NLP上的发展 Seq2Seq ...
2. Attention Is All You Need（Transformer）算法原理解析
1. 语言模型 2. Attention Is All You Need(Transformer)算法原理解析 3. ELMo算法原理解析 4. OpenAI GPT算法原理解析 5. BERT算法原 ...
深度学习之Attention Model（注意力模型）
1.Attention Model 概述深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观 ...
[深度概念]·Attention Model（注意力模型）学习笔记
此文源自一个博客,笔者用黑体做了注释与解读,方便自己和大家深入理解Attention model,写的不对地方欢迎批评指正.. 1.Attention Model 概述深度学习里的Attention ...
深入浅出Transformer
Transformer Transformer是NLP的颠覆者,它创造性地用非序列模型来处理序列化的数据,而且还获得了大成功.更重要的是,NLP真的可以"深度"学习了,各种基于tr ...
[NLP] REFORMER: THE EFFICIENT TRANSFORMER
1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Bill ...
文本建模、文本分类相关开源项目推荐（Pytorch实现）
Awesome-Repositories-for-Text-Modeling repo paper miracleyoo/DPCNN-TextCNN-Pytorch-Inception Deep Py ...
关于NLP和深度学习，准备好好看看这个github，还有这篇介绍
这个github感觉很不错,把一些比较新的实现都尝试了: https://github.com/brightmart/text_classification fastText TextCNN Text ...
BERT解析及文本分类应用
目录前言 BERT模型概览 Seq2Seq Attention Transformer encoder部分 Decoder部分 BERT Embedding 预训练文本分类试验参考文献前言在 ...
ACNet: 特别的想法，腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020
论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类,在树结构的边上结合了注意力卷积操作,在每个节点使用路由函数来定义从根节点到叶子节点的计算路径,结合所有叶子节点的预测值进行最终的预测,论文的 ...

随机推荐

ubuntu系统wireshark源码编译与安装
官网:https://www.wireshark.org/ 官方文档:Wireshark · Documentation 一介绍 wireshark[1]是一款抓包工具.wireshark的GUI( ...
【转载】WebBrowser控件的常用方法、属性和事件
1. 属性属性说明 Application 如果该对象有效,则返回掌管WebBrowser控件的应用程序实现的自动化对象(IDispatch).如果在宿主对象中自动化对象无效,这个程序将返回Web ...
.NET周报【1月第1期 2023-01-06】
国内文章 [开源]基于.net6+gtksharp实现的Linux下的图形界面串口调试工具 https://www.cnblogs.com/flykai/p/17007554.html 由于公司的上位 ...
从开发属于你自己的第一个 Python 库，做一名真正的程序员「双语版」
你好,我是悦创.之前我在 CSDN 编写了一篇开发 Python 库的教程,有人加我提问到的一些问题,我来更新一下这篇文章:https://blog.csdn.net/qq_33254766/arti ...
pytorch 配置详细过程
torch github 项目多方便,api好调用 cpu版本装torch 安装最新版本的就可以. torchvision 要版本对应算法: torchvision版本号= torch版本号第一 ...
初探富文本之OT协同实例
初探富文本之OT协同实例在前边初探富文本之OT协同算法一文中我们探讨了为什么需要协同.为什么仅有原子化的操作并不能实现协同.为什么要有操作变换.如何进行操作变换.什么时候能够应用操作.服务端如何进行 ...
在GCP的Kubernetes上安装dapr
1 简介我们之前使用了dapr的本地托管模式,但在生产中我们一般使用Kubernetes托管,本文介绍如何在GKE(GCP Kubernetes)安装dapr. 相关文章: dapr本地托管的服务调 ...
Node.js 应用全链路追踪技术——全链路信息存储
作者:vivo 互联网前端团队- Yang Kun 本文是上篇文章<Node.js 应用全链路追踪技术--全链路信息获取>的后续.阅读完,再来看本文,效果会更佳哦. 本文主要介绍在Node ...
计算机网络基础06-Email应用
1 构成组件邮件客户端邮件服务器 SMTP协议 Simple Mail Transfer Protocol 1.1 邮件客户端读写Email消息和服务器交互,收发消息 1.2 邮件服务器邮箱 ...
vue+elementUI 实现设置还款日字母弹窗组件
1.业务背景还款业务,设置每月还款日,选每月几号扣款,不需要29.30.31,因为不是每个月都有这三天的 2.预期效果图 3.代码实现 3.1 初始化vue项目地址:https://cn.vuej ...