Attention

Recurrent Models of Visual Attention [2014 deepmind NIPS]
Neural Machine Translation by Jointly Learning to Align and Translate [ICLR 2015]

OverallSurvey

Efficient Transformers: A Survey [paper]
A Survey on Visual Transformer [paper]
Transformers in Vision: A Survey [paper]

NLP

Language

Sequence to Sequence Learning with Neural Networks [NIPS 2014] [paper] [code]
End-To-End Memory Networks [NIPS 2015] [paper] [code]
Attention is all you need [NIPS 2017] [paper] [code]
Bidirectional Encoder Representations from Transformers: BERT [paper] [code] [pretrained-models]
Reformer: The Efficient Transformer [ICLR2020] [paper] [code]
Linformer: Self-Attention with Linear Complexity [AAAI2020] [paper] [code]
GPT-3: Language Models are Few-Shot Learners [NIPS 2020] [paper] [code]

Speech

Dual-Path Transformer Network: Direct Context-Aware Modeling for End-to-End Monaural Speech Separation [INTERSPEECH 2020] [paper] [code]

CV

Backbone_Classification

Papers and Codes

CoaT: Co-Scale Conv-Attentional Image Transformers [arxiv 2021] [paper] [code]
SiT: Self-supervised vIsion Transformer [arxiv 2021] [paper] [code]
VIT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale [VIT] [ICLR 2021] [paper] [code]
- Trained with extra private data: do not generalized well when trained on insufficient amounts of data
DeiT: Data-efficient Image Transformers [arxiv2021] [paper] [code]
- Token-based strategy and build upon VIT and convolutional models
Transformer in Transformer [arxiv 2021] [paper] [code1] [code-official]
OmniNet: Omnidirectional Representations from Transformers [arxiv2021] [paper]
Gaussian Context Transformer [CVPR 2021] [paper]
General Multi-Label Image Classification With Transformers [CVPR 2021] [paper] [code]
Scaling Local Self-Attention for Parameter Efficient Visual Backbones [CVPR 2021] [paper]
T2T-ViT: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet [ICCV 2021] [paper] [code]
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows [ICCV 2021] [paper] [code]
Bias Loss for Mobile Neural Networks [ICCV 2021] [paper] [[code()]]
Vision Transformer with Progressive Sampling [ICCV 2021] [paper] [[code(https://github.com/yuexy/PS-ViT)]]
Rethinking Spatial Dimensions of Vision Transformers [ICCV 2021] [paper] [code]
Rethinking and Improving Relative Position Encoding for Vision Transformer [ICCV 2021] [paper] [code]

Interesting Repos

Convolutional Cifar10
vision-transformers-cifar10
- Found that performance was worse than simple resnet18
- The influence of hyper-parameters: dim of vit, etc.
ViT-pytorch
- Using pretrained weights can get better results

Self-Supervised

Emerging Properties in Self-Supervised Vision Transformers [ICCV 2021] [paper] [code]
An Empirical Study of Training Self-Supervised Vision Transformers [ICCV 2021] [paper] [code]

Interpretability and Robustness

Transformer Interpretability Beyond Attention Visualization [CVPR 2021] [paper] [code]
On the Adversarial Robustness of Visual Transformers [arxiv 2021] [paper]
Robustness Verification for Transformers [ICLR 2020] [paper] [code]
Pretrained Transformers Improve Out-of-Distribution Robustness [ACL 2020] [paper] [code]

Detection

DETR: End-to-End Object Detection with Transformers [ECCV2020] [paper] [code]
Deformable DETR: Deformable Transformers for End-to-End Object Detection [ICLR2021] [paper] [code]
End-to-End Object Detection with Adaptive Clustering Transformer [arxiv2020] [paper]
UP-DETR: Unsupervised Pre-training for Object Detection with Transformers [[arxiv2020] [paper]
Rethinking Transformer-based Set Prediction for Object Detection [arxiv2020] [paper] [zhihu]
End-to-end Lane Shape Prediction with Transformers [WACV 2021] [paper] [code]
ViT-FRCNN: Toward Transformer-Based Object Detection [arxiv2020] [paper]
Line Segment Detection Using Transformers [CVPR 2021] [paper] [code]
Facial Action Unit Detection With Transformers [CVPR 2021] [paper] [code]
Adaptive Image Transformer for One-Shot Object Detection [CVPR 2021] [paper] [code]
Self-attention based Text Knowledge Mining for Text Detection [CVPR 2021] [paper] [code]
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions [ICCV 2021] [paper] [code]
Group-Free 3D Object Detection via Transformers [ICCV 2021] [paper] [code]
Fast Convergence of DETR with Spatially Modulated Co-Attention [ICCV 2021] [paper] [code]

HOI

End-to-End Human Object Interaction Detection with HOI Transformer [CVPR 2021] [paper] [code]
HOTR: End-to-End Human-Object Interaction Detection with Transformers [CVPR 2021] [paper] [code]

Tracking

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking [CVPR 2021] [paper] [code]
TransTrack: Multiple-Object Tracking with Transformer [CVPR 2021] [paper] [code]
Transformer Tracking [CVPR 2021] [paper] [code]
Learning Spatio-Temporal Transformer for Visual Tracking [ICCV 2021] [paper] [code]

Segmentation

SETR : Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers [CVPR 2021] [paper] [code]
Trans2Seg: Transparent Object Segmentation with Transformer [arxiv2021] [paper] [code]
End-to-End Video Instance Segmentation with Transformers [arxiv2020] [paper] [zhihu]
MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers [CVPR 2021] [paper] [official-code] [unofficial-code]
Medical Transformer: Gated Axial-Attention for Medical Image Segmentation [arxiv 2020] [paper] [code]
SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [CVPR 2021] [paper] [code]

Reid

Diverse Part Discovery: Occluded Person Re-Identification With Part-Aware Transformer [CVPR 2021] [paper] [code]

Localization

LoFTR: Detector-Free Local Feature Matching with Transformers [CVPR 2021] [paper] [code]
MIST: Multiple Instance Spatial Transformer [CVPR 2021] [paper] [code]

Generation

Variational Transformer Networks for Layout Generation [CVPR 2021] [paper] [code]
TransGAN: Two Transformers Can Make One Strong GAN [paper] [code]
Taming Transformers for High-Resolution Image Synthesis [CVPR 2021] [paper] [code]
iGPT: Generative Pretraining from Pixels [ICML 2020] [paper] [code]
Generative Adversarial Transformers [arxiv 2021] [paper] [code]
LayoutTransformer: Scene Layout Generation With Conceptual and Spatial Diversity [CVPR2021] [paper[https://openaccess.thecvf.com/content/CVPR2021/html/Yang_LayoutTransformer_Scene_Layout_Generation_With_Conceptual_and_Spatial_Diversity_CVPR_2021_paper.html]] [code]
Spatial-Temporal Transformer for Dynamic Scene Graph Generation [ICCV 2021] [paper]

Inpainting

STTN: Learning Joint Spatial-Temporal Transformations for Video Inpainting [ECCV 2020] [paper] [code]

Image enhancement

Pre-Trained Image Processing Transformer [CVPR 2021] [paper]
TTSR: Learning Texture Transformer Network for Image Super-Resolution [CVPR2020] [paper] [code]

Pose Estimation

Pose Recognition with Cascade Transformers [CVPR 2021] [paper] [code]
TransPose: Towards Explainable Human Pose Estimation by Transformer [arxiv 2020] [paper] [code]
Hand-Transformer: Non-Autoregressive Structured Modeling for 3D Hand Pose Estimation [ECCV 2020] [paper]
HOT-Net: Non-Autoregressive Transformer for 3D Hand-Object Pose Estimation [ACMMM 2020] [paper]
End-to-End Human Pose and Mesh Reconstruction with Transformers [CVPR 2021] [paper] [code]
3D Human Pose Estimation with Spatial and Temporal Transformers [arxiv 2020] [paper] [code]
End-to-End Trainable Multi-Instance Pose Estimation with Transformers [arxiv 2020] [paper]

Face

Robust Facial Expression Recognition with Convolutional Visual Transformers [arxiv 2020] [paper]
Clusformer: A Transformer Based Clustering Approach to Unsupervised Large-Scale Face and Visual Landmark Recognition [CVPR 2021] [paper] [code]

Video Understanding

Is Space-Time Attention All You Need for Video Understanding? [arxiv 2020] [paper] [code]
Temporal-Relational CrossTransformers for Few-Shot Action Recognition [CVPR 2021] [paper] [code]
Self-Supervised Video Hashing via Bidirectional Transformers [CVPR 2021] [paper]
SSAN: Separable Self-Attention Network for Video Representation Learning [CVPR 2021] [paper]

Depth-Estimation

Adabins：Depth Estimation using Adaptive Bins [CVPR 2021] [paper] [code]

Prediction

Multimodal Motion Prediction with Stacked Transformers [CVPR 2021] [paper] [code]
Deep Transformer Models for Time Series Forecasting: The Influenza Prevalence Case [paper]
Transformer networks for trajectory forecasting [ICPR 2020] [paper] [code]
Spatial-Channel Transformer Network for Trajectory Prediction on the Traffic Scenes [arxiv 2021] [paper] [code]
Pedestrian Trajectory Prediction using Context-Augmented Transformer Networks [ICRA 2020] [paper] [code]
Spatio-Temporal Graph Transformer Networks for Pedestrian Trajectory Prediction [ECCV 2020] [paper] [code]
Hierarchical Multi-Scale Gaussian Transformer for Stock Movement Prediction [paper]
Single-Shot Motion Completion with Transformer [arxiv2021] [paper] [code]

NAS

HR-NAS: Searching Efficient High-Resolution Neural Architectures with Transformers [CVPR 2021] [paper] [code]
AutoFormer: Searching Transformers for Visual Recognition [ICCV 2021] [paper] [[code(https://github.com/microsoft/AutoML)]]

PointCloud

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [CVPR 2021] [paper] [code]
Point 4D Transformer Networks for Spatio-Temporal Modeling in Point Cloud Videos [CVPR 2021] [paper]

Fashion

Kaleido-BERT：Vision-Language Pre-training on Fashion Domain [CVPR 2021] [paper] [code]

Medical

Lesion-Aware Transformers for Diabetic Retinopathy Grading [CVPR 2021] [paper]

Cross-Modal

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [CVPR 2021] [paper]
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning [CVPR2021] [paper] [code]
Topological Planning With Transformers for Vision-and-Language Navigation [CVPR 2021] [paper]
Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos [CVPRR 2021] [paper]
VLN BERT: A Recurrent Vision-and-Language BERT for Navigation [CVPR 2021] [paper] [code]
Less Is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [CVPR 2021] [paper] [code]

Reference

Attention 机制详解1，2 zhihu1 zhihu2
自然语言处理中的自注意力机制（Self-attention Mechanism)
Transformer模型原理详解 [zhihu] [csdn]
完全解析RNN, Seq2Seq, Attention注意力机制
Seq2Seq and transformer implementation
End-To-End Memory Networks [zhihu]
Illustrating the key,query,value in attention
Transformer in CV
CVPR2021-Papers-with-Code
ICCV2021-Papers-with-Code

Transformer总结的更多相关文章

Spatial Transformer Networks(空间变换神经网络)
Reference:Spatial Transformer Networks [Google.DeepMind]Reference:[Theano源码,基于Lasagne] 闲扯:大数据不如小数据这 ...
ABBYY PDF Transformer+怎么标志注释
ABBYY PDF Transformer+是一款可创建.编辑.添加注释及将PDF文件转换为其他可编辑格式的通用工具,可用来在PDF页面的任何位置添加注释(关于如何通过ABBYY PDF Transf ...
OAF_文件系列6_实现OAF导出XML文件javax.xml.parsers/transformer（案例）
20150803 Created By BaoXinjian
泛函编程（27）－泛函编程模式－Monad Transformer
经过了一段时间的学习,我们了解了一系列泛函数据类型.我们知道,在所有编程语言中,数据类型是支持软件编程的基础.同样,泛函数据类型Foldable,Monoid,Functor,Applicative, ...
如何用Transformer+从PDF文档编辑数据
ABBYY PDF Transformer+是一款可创建.编辑.添加注释及将PDF文件转换为其他可编辑格式的通用工具,可使用该软件从PDF文档编辑机密信息,然后再发布它们,文本和图像均可编辑,本文将为 ...
ABBYY PDF Transformer+ Pro支持全世界189种语言
ABBYY PDF Transformer+ Pro版支持189种语言,包括我们人类的自然语言.人造语言以及正式语言.受支持的语言可能会因产品的版本不同而各异.本文具体列举了所有ABBYY PDF T ...
发现PDF Transformer+转换的图像字体小了如何处理
ABBYY PDF Transformer+转换的原始图像字体太小怎么办?为了获得最佳文本识别效果,请用较高的分辨率扫描用极小字体打印的文档,否则很容易在转换识别时出错.下面小编就给大家讲讲该怎么解决 ...
ABBYY PDF Transformer+从文件选项中创建PDF文档的教程
可使用OCR文字识别软件ABBYY PDF Transformer+从Microsoft Word.Microsoft Excel.Microsoft PowerPoint.HTML.RTF.Micr ...
Could not find a transformer to transform "SimpleDataType{type=org.mule.transport.NullPayload
mule esb报错 com.isoftstone.esb.transformer.Json2RequestBusinessObject.transformMessage(Json2RequestBu ...
Transformer
参考资料: [ERT大火却不懂Transformer?读这一篇就够了] https://zhuanlan.zhihu.com/p/54356280 (中文版) http://jalammar.gith ...

随机推荐

rsa原理及其应用
rsa算法 0x01 原理 1.1 相关概念 RSA(Rivest-Shamir-Adleman)加密算法是一种基于数论的非实时加密算法,广泛用于安全通信.RSA算法的核心依赖于大整数分解的困难性 1 ...
Webpack热加载显示 'Cannot get /' 解决办法
安装webpack-dev-server后,用 npm 打包运行,打开后显示 'Cannot get /' : 需要在webpack.config.js的devServer中添加以下代码: 现在再次运 ...
Stream流，集合与基本数组的相互转换
Arrays类的Api stream()方法传入数组,返回对应的stream流. Collection集合的Api: stream()不传参数,返回Stream流. 有了上述Api可以完成如下转换.. ...
k8s DockerFile中使用执行linux命令，安装字体
#字体安装 RUN apt-get update && \apt-get -y install fontconfig xfonts-utils && \mkdir -p ...
Multi-Patch Prediction Adapting LLMs for Time Series Representation Learning
这篇论文是出自2024ICML的一篇论文,作者成功将大语言模型应用到时序模型之中,并在时序领域取得了很好的效果,不仅如此,作者还设置了多种下游任务,从论文结果得知,作者的模型在下游任务处都取得了很好的 ...
three.js+vue智慧社区web3d数字孪生三维地图
案例效果截图如下: 具体案例场景和功能,详见b站视频: https://www.bilibili.com/video/BV1Bb421E7WL/?vd_source=7d4ec9c9275b9c7d1 ...
Flink如何处理update数据
问题 Flink实时统计GMV,如果订单金额下午变了该怎么处理具体描述实时统计每天的GMV,但是订单金额是会修改的. 订单存储在mysql,通过binlog解析工具实时同步到kafka.然后从ka ...
问题：深度学习时代的初期最为火热的AI安全问题已经很少有人讨论了，那么是不是已经解决该问题了呢？
答案: 先说结果,该问题并没有被解决. 之所以该问题已经不是最初的那么火热的讨论和研究热点了,其主要原因是大家发现这个神经网络在深度学习时代是十分的work的,虽然AI安全问题一直没有解决,但是比较发 ...
UIAbility组件生命周期
当用户打开.切换和返回到对应应用时,应用中的UIAbility实例会在其生命周期的不同状态之间转换.UIAbility类提供了一系列回调,通过这些回调可以知道当前UIAbility实例的某个状态发生改 ...
register at least one qt version using“qt vs tools“-＞“qt options“问题描述及解决方法
问题描述:在安装了Qt 5.9.8,vs 2022, QT VS Tool 2022并配置好环境变量之后创建Qt项目时无法创建,提示至少需要注册一个Qt版本到Qt VS Tools的Qt Option ...

Transformer总结

Contents

Attention

OverallSurvey

NLP

Language

Speech

CV

Backbone_Classification

Papers and Codes

Interesting Repos

Self-Supervised

Interpretability and Robustness

Detection

HOI

Tracking

Segmentation

Reid

Localization

Generation

Inpainting

Image enhancement

Pose Estimation

Face

Video Understanding

Depth-Estimation

Prediction

NAS

PointCloud

Fashion

Medical

Cross-Modal

Reference

Transformer总结的更多相关文章

随机推荐

热门专题