(论文阅读)REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
1. 论文
题目: REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS
代码: https://github.com/IBM/RegionViT
会议/期刊:ICLR2022
摘要:
对ViT的一种改进。提出了一种rigional to local attention,核心思想是将同一个输入(图片)不重叠地分割成一大一小两种size的patch,然后将两种patch之中的信息融合,来提升所学习特征的多尺度表现。
2. 所提出方法:

比较有意思的是regional to local attention 的设计,既local token计算自注意力时,这个区域对应的regional token也会参与。这就完成信息的交互。也是本文的核心(使用了相对位置编码,剩余使用了相对位置编码)。

3. 实验:
可能还是不如swin
4. 讨论:
看这篇早期的文献,主要是为了验证神经算子这边physics position attention的设计。
本文的做法类似Crossvit?(同一批作者)
但我尝试CrossPiT感觉没什么用,不仅会增加大量的计算,性能也没有提升。甚至可能不如单分支。
(论文阅读)REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS的更多相关文章
- [论文阅读]阿里DIN深度兴趣网络之总体解读
[论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...
- Learning under Concept Drift: A Review 概念漂移综述论文阅读
首先这是2018年一篇关于概念漂移综述的论文[1]. 最新的研究内容包括 (1)在非结构化和噪声数据集中怎么准确的检测概念漂移.how to accurately detect concept dri ...
- Multimodal —— 看图说话(Image Caption)任务的论文笔记(二)引入attention机制
在上一篇博客中介绍的论文"Show and tell"所提出的NIC模型采用的是最"简单"的encoder-decoder框架,模型上没有什么新花样,使用CNN ...
- Deep Reinforcement Learning for Dialogue Generation 论文阅读
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...
- 论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
- Effective Approaches to Attention-based Neural Machine Translation(Global和Local attention)
这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文,不过我没细看 Effective Approaches to Attention-base ...
- [论文阅读]阿里DIEN深度兴趣进化网络之总体解读
[论文阅读]阿里DIEN深度兴趣进化网络之总体解读 目录 [论文阅读]阿里DIEN深度兴趣进化网络之总体解读 0x00 摘要 0x01论文概要 1.1 文章信息 1.2 基本观点 1.2.1 DIN的 ...
- [论文阅读] RNN 在阿里DIEN中的应用
[论文阅读] RNN 在阿里DIEN中的应用 0x00 摘要 本文基于阿里推荐DIEN代码,梳理了下RNN一些概念,以及TensorFlow中的部分源码.本博客旨在帮助小伙伴们详细了解每一步骤以及为什 ...
- BERT 论文阅读笔记
BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君 ...
- [论文阅读笔记] Structural Deep Network Embedding
[论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能 ...
随机推荐
- AGC021E ball Eat chamelemons
E - Ball Eat Chameleons 设颜色序列中有\(R\)个红球,\(B\)个蓝球,且有\(B+R=k\) 然后分类讨论: \(R<B\) 无解 \(R>B\) 这时有一种合 ...
- .Net Core WebApi 版本控制
https://www.cnblogs.com/xhubobo/p/14445511.html 使用过程参考:在ASP.Net Core Web API中使用Swagger,本文在此基础上阐述如何进行 ...
- windows11安装linux
安装教程 https://blog.csdn.net/Daisy74RJ/article/details/125483629 可能遇到的问题 如果报错 则参考 WslRegisterDistribut ...
- Luogu P8754 [蓝桥杯 2021 省 AB2] 完全平方数 题解
P8754 [蓝桥杯 2021 省 AB2] 完全平方数 首先,要使 \(nx\) 为完全平方数,需要知道完全平方数的一个性质:完全平方数的质因子的指数一定为偶数. 证明: 设 \(\sqrt{nx} ...
- 前端开发系列079-Node篇之npm+
本文介绍NPM系列核心工具(npm.nrm.npx和nvm)的基本使用和常用的命令. 核心工具 npm(node package manager) Node的包管理工具,我们可以利用该工具来搜索.下载 ...
- Codeforces Round #620 (Div. 2) ABC 题解
A. Two Rabbits 题意:数轴上有x,y,且x<y.x可以每次+a,y可以每次-b.问能否xy相遇. 思路:只要xy差值是a+b的倍数即可. view code #include< ...
- iga 入门之 强解表达式和 弱解表达式
简介 摘自 流体力学数值方法 弱解几分表达式 对Galerkin几分表达式(1-76)式进行分布几分,然后将自然边界条件带入表达式中,由此所获得的几分表达式,将作为Galerkin法求解的出发点.此时 ...
- vs 运行 qt 项目的注意事项
简介 RT 1 使用vs 打开 qt 项目 https://blog.csdn.net/weixin_44840658/article/details/99693803 2 运行项目之后 会因为缺少相 ...
- ARM GCC内联汇编
ARM GCC内联汇编 通用的内嵌汇编模板 __asm volatile ( code :output operand list :input operand list :clobber list ) ...
- 日事清|管理驾驶舱,公司高管、PM必备观察工具
场景介绍 01:一键切换「驾驶舱」高管视图 ● 驾驶舱适配办公室大屏.项目例会投屏展示.管理层统一回顾等场景: ● 每分钟自动更新数据,确保您看到的永远是最新的进度与状态: ● 今日在线人数.本周完成 ...