1. 论文

题目: REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS

代码: https://github.com/IBM/RegionViT

会议/期刊:ICLR2022

摘要:

对ViT的一种改进。提出了一种rigional to local attention,核心思想是将同一个输入(图片)不重叠地分割成一大一小两种size的patch,然后将两种patch之中的信息融合,来提升所学习特征的多尺度表现。


2. 所提出方法:

比较有意思的是regional to local attention 的设计,既local token计算自注意力时,这个区域对应的regional token也会参与。这就完成信息的交互。也是本文的核心(使用了相对位置编码,剩余使用了相对位置编码)。


3. 实验:

可能还是不如swin

4. 讨论:

看这篇早期的文献,主要是为了验证神经算子这边physics position attention的设计。

本文的做法类似Crossvit?(同一批作者)

但我尝试CrossPiT感觉没什么用,不仅会增加大量的计算,性能也没有提升。甚至可能不如单分支。

(论文阅读)REGIONVIT: REGIONAL-TO-LOCAL ATTENTION FOR VISION TRANSFORMERS的更多相关文章

  1. [论文阅读]阿里DIN深度兴趣网络之总体解读

    [论文阅读]阿里DIN深度兴趣网络之总体解读 目录 [论文阅读]阿里DIN深度兴趣网络之总体解读 0x00 摘要 0x01 论文概要 1.1 概括 1.2 文章信息 1.3 核心观点 1.4 名词解释 ...

  2. Learning under Concept Drift: A Review 概念漂移综述论文阅读

    首先这是2018年一篇关于概念漂移综述的论文[1]. 最新的研究内容包括 (1)在非结构化和噪声数据集中怎么准确的检测概念漂移.how to accurately detect concept dri ...

  3. Multimodal —— 看图说话(Image Caption)任务的论文笔记(二)引入attention机制

    在上一篇博客中介绍的论文"Show and tell"所提出的NIC模型采用的是最"简单"的encoder-decoder框架,模型上没有什么新花样,使用CNN ...

  4. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

  5. 论文阅读笔记 Improved Word Representation Learning with Sememes

    论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...

  6. Effective Approaches to Attention-based Neural Machine Translation(Global和Local attention)

    这篇论文主要是提出了Global attention 和 Local attention 这个论文有一个译文,不过我没细看 Effective Approaches to Attention-base ...

  7. [论文阅读]阿里DIEN深度兴趣进化网络之总体解读

    [论文阅读]阿里DIEN深度兴趣进化网络之总体解读 目录 [论文阅读]阿里DIEN深度兴趣进化网络之总体解读 0x00 摘要 0x01论文概要 1.1 文章信息 1.2 基本观点 1.2.1 DIN的 ...

  8. [论文阅读] RNN 在阿里DIEN中的应用

    [论文阅读] RNN 在阿里DIEN中的应用 0x00 摘要 本文基于阿里推荐DIEN代码,梳理了下RNN一些概念,以及TensorFlow中的部分源码.本博客旨在帮助小伙伴们详细了解每一步骤以及为什 ...

  9. BERT 论文阅读笔记

    BERT 论文阅读 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 由 @快刀切草莓君 ...

  10. [论文阅读笔记] Structural Deep Network Embedding

    [论文阅读笔记] Structural Deep Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的表示学习方法大多采用浅层模型,这可能不能 ...

随机推荐

  1. AGC021E ball Eat chamelemons

    E - Ball Eat Chameleons 设颜色序列中有\(R\)个红球,\(B\)个蓝球,且有\(B+R=k\) 然后分类讨论: \(R<B\) 无解 \(R>B\) 这时有一种合 ...

  2. .Net Core WebApi 版本控制

    https://www.cnblogs.com/xhubobo/p/14445511.html 使用过程参考:在ASP.Net Core Web API中使用Swagger,本文在此基础上阐述如何进行 ...

  3. windows11安装linux

    安装教程 https://blog.csdn.net/Daisy74RJ/article/details/125483629 可能遇到的问题 如果报错 则参考 WslRegisterDistribut ...

  4. Luogu P8754 [蓝桥杯 2021 省 AB2] 完全平方数 题解

    P8754 [蓝桥杯 2021 省 AB2] 完全平方数 首先,要使 \(nx\) 为完全平方数,需要知道完全平方数的一个性质:完全平方数的质因子的指数一定为偶数. 证明: 设 \(\sqrt{nx} ...

  5. 前端开发系列079-Node篇之npm+

    本文介绍NPM系列核心工具(npm.nrm.npx和nvm)的基本使用和常用的命令. 核心工具 npm(node package manager) Node的包管理工具,我们可以利用该工具来搜索.下载 ...

  6. Codeforces Round #620 (Div. 2) ABC 题解

    A. Two Rabbits 题意:数轴上有x,y,且x<y.x可以每次+a,y可以每次-b.问能否xy相遇. 思路:只要xy差值是a+b的倍数即可. view code #include< ...

  7. iga 入门之 强解表达式和 弱解表达式

    简介 摘自 流体力学数值方法 弱解几分表达式 对Galerkin几分表达式(1-76)式进行分布几分,然后将自然边界条件带入表达式中,由此所获得的几分表达式,将作为Galerkin法求解的出发点.此时 ...

  8. vs 运行 qt 项目的注意事项

    简介 RT 1 使用vs 打开 qt 项目 https://blog.csdn.net/weixin_44840658/article/details/99693803 2 运行项目之后 会因为缺少相 ...

  9. ARM GCC内联汇编

    ARM GCC内联汇编 通用的内嵌汇编模板 __asm volatile ( code :output operand list :input operand list :clobber list ) ...

  10. 日事清|管理驾驶舱,公司高管、PM必备观察工具

    场景介绍 01:一键切换「驾驶舱」高管视图 ● 驾驶舱适配办公室大屏.项目例会投屏展示.管理层统一回顾等场景: ● 每分钟自动更新数据,确保您看到的永远是最新的进度与状态: ● 今日在线人数.本周完成 ...