带你读AI论文丨用于细粒度分类的Transformer结构—TransFG
摘要:本文解读了《TransFG: A Transformer Architecture for Fine-grained Recognition》,该论文针对细粒度分类任务,提出了对应的TransFG。
本文分享自华为云社区《论文解读系列二十:用于细粒度分类的Transformer结构—TransFG》,作者: BigDragon 。

论文地址:https://arxiv.org/abs/2103.07976
GitHub地址:https://github.com/TACJu/TransFG
近来,细粒度分类研究工作主要集中在如何定位差异性图片区域,以此提高网络捕捉微小差异的能力,而大部分工作主要通过使用不同的基模型来提取特定区域的特征,但这种方式会使流程复杂化,并从特定区域提取出大量冗余特征。因此,本文将所有原始注意力权重整合至注意力映射中,以此来指导模型高效地选取差异性图片区域,提出用于细粒度分类的Transformer结构TransFG。

图1 TransFG 结构
1 问题定义
细粒度分类任务主要以定位方法及特征编码方法为主,定位方法主要通过定位差异性局部区域来进行分类,而特征编码方法通过高维信息或寻找差异对之间关系来学习更多信息。TransFG通过整合注意力权重,计算区域的对比损失,来定位差异性局部区域,以此进行细粒度分类。
2 TransFG
2.1 图像序列化
原有Vision Transformer将图片分割为相互不重叠的patch,但这会损害局部相邻结构,可能会导致差异性图像区域被分离。因此,为解决这个问题,本文采用滑动窗口产生重叠patch,所产生的patch数量N根据公式(1)进行计算。其中,H、W分别为图像长宽,P为图像patch尺寸,S为滑动窗口步长。

2.2 Patch Embedding 和 Transformer Encoder
TransFG在Patch Embedding 和 Transformer Encoder两个模块遵循了原有ViT的形式,并未进行改动
2.3 局部选取模块(PSM)

图2 TransFG的注意力映射及所选取的token
首先假设模型中具有K个自注意首部,各层注意力权重如公式(2)所示,其中al指第l层K个首部注意力权重。

如公式(3)所示,将所有层的注意力权重进行矩阵相乘,afinal 捕捉了图像信息从输入到更深层的整个过程,相对于原有ViT,包含了更多信息,更加有助于选取具有识别性的区域

选取afinal中K个不同注意力首部的最大值A1、A2、…、AK,并将其与分类token进行拼接,其结果如公式(4)所示。该步骤不仅保留了全局信息,也让模型更加关注与不同类别之间的微小差异。

2.4 对比损失
如公式(5)所示,对比损失的目标是最小化不同类别对应的分类tokens的相似度,并最大化相同类别对应的分类tokens的相似度。其中,为减少loss被简单负样本影响,采用α来控制对loss有贡献的负样本对。

3 实验结果
TranFG在CUB-200-2011、Stanford Cars、Stanford Dogs、NABirds及iNat2017五个数据集进行了验证,并在CUB-200-2011、Standford Dogs、NABirds数据集上取得了SOTA结果。




4. 总结
- 在图像序列化部分,相对于采用非重叠的patch分割方法,采用重叠方法的精度提高了0.2%
- PSM整合所有注意力权重,保留全局信息,让模型更加关注于不同类别的微小差别,让模型精度提高了0.7%。
- 采用对比损失函数,能减少不同类别的相似度,提高相同类别的相似度,让模型精度提高了0.4%-0.5%。
参考文献
[1] He, Ju, et al. "TransFG: A Transformer Architecture for Fine-grained Recognition." arXiv preprint arXiv:2103.07976 (2021).
想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习
带你读AI论文丨用于细粒度分类的Transformer结构—TransFG的更多相关文章
- 带你读AI论文丨用于目标检测的高斯检测框与ProbIoU
摘要:本文解读了<Gaussian Bounding Boxes and Probabilistic Intersection-over-Union for Object Detection&g ...
- 带你读AI论文丨ACGAN-动漫头像生成
摘要:ACGAN-动漫头像生成是一个十分优秀的开源项目. 本文分享自华为云社区<[云驻共创]AI论文精读会:ACGAN-动漫头像生成>,作者:SpiderMan. 1.论文及算法介绍 1. ...
- 带你读AI论文丨S&P21 Survivalism: Living-Off-The-Land 经典离地攻击
摘要:这篇文章属于系统分析类的文章,通过详细的实验分析了离地攻击(Living-Off-The-Land)的威胁性和流行度,包括APT攻击中的利用及示例代码论证. 本文分享自华为云社区<[论文阅 ...
- 带你读AI论文丨RAID2020 Cyber Threat Intelligence Modeling GCN
摘要:本文提出了基于异构信息网络(HIN, Heterogeneous Information Network)的网络威胁情报框架--HINTI,旨在建模异构IOCs之间的相互依赖关系,以量化其相关性 ...
- 带你读AI论文丨LaneNet基于实体分割的端到端车道线检测
摘要:LaneNet是一种端到端的车道线检测方法,包含 LanNet + H-Net 两个网络模型. 本文分享自华为云社区<[论文解读]LaneNet基于实体分割的端到端车道线检测>,作者 ...
- 带你读AI论文丨针对文字识别的多模态半监督方法
摘要:本文提出了一种针对文字识别的多模态半监督方法,具体来说,作者首先使用teacher-student网络进行半监督学习,然后在视觉.语义以及视觉和语义的融合特征上,都进行了一致性约束. 本文分享自 ...
- 带你读AI论文:NDSS2020 UNICORN: Runtime Provenance-Based Detector
摘要:这篇文章将详细介绍NDSS2020的<UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats& ...
- ACNet: 特别的想法,腾讯提出结合注意力卷积的二叉神经树进行细粒度分类 | CVPR 2020
论文提出了结合注意力卷积的二叉神经树进行弱监督的细粒度分类,在树结构的边上结合了注意力卷积操作,在每个节点使用路由函数来定义从根节点到叶子节点的计算路径,结合所有叶子节点的预测值进行最终的预测,论文的 ...
- 【带你读论文】向量表征经典之DeepWalk
摘要:详细讲解DeepWalk,通过随机游走的方式对网络化数据做一个表示学习,它是图神经网络的开山之作,借鉴了Word2vec的思想. 本文分享自华为云社区<[论文阅读] (25) 向量表征经典 ...
- 带你读Paper丨分析ViT尚存问题和相对应的解决方案
摘要:针对ViT现状,分析ViT尚存问题和相对应的解决方案,和相关论文idea汇总. 本文分享自华为云社区<[ViT]目前Vision Transformer遇到的问题和克服方法的相关论文汇总& ...
随机推荐
- 虹科干货 | 打破传统!金融界黑科技—虹科Redis企业版数据库
金融行业数字化转型浪潮来袭,客户需求也正加速向在线金融服务转移.金融机构想要实现现代化改造技术堆栈,为客户提供实时交互.欺诈检测等一系列个性化创新服务,就必须重视遗留系统和传统数据库架构"老 ...
- Python 利用pandas 和 matplotlib绘制柱状图
当你需要展示数据时,图表是一个非常有用的工具.Python 中的 pandas 和 matplotlib 库提供了丰富的功能,可以帮助你轻松地绘制各种类型的图表.本文将介绍如何使用这两个库,绘制一个店 ...
- 开发现代化的.NetCore控制台程序:(2)创建一个C#项目模板
前言 上一篇文章(开发一个现代化的.NetCore控制台程序,包含依赖注入/配置/日志等要素)介绍了开发现代化的.NetCore控制台程序的细节,但这还不够,我又创建了一个脚手架模板,并命名为 Flu ...
- 原生JS实现视频截图
视频截图效果预览 利用Canvas进行截图 要用原生js实现视频截图,可以利用canvas的绘图功能 ctx.drawImage,只需要获取到视频标签,就可以通过drawImage把视频当前帧图像绘制 ...
- (Good topic)圆圈中最后剩下的数字(leetcode 3.30每日打卡)
著名的约瑟夫问题: 0,1,,n-1这n个数字排成一个圆圈,从数字0开始,每次从这个圆圈里删除第m个数字.求出这个圆圈里剩下的最后一个数字. 例如,0.1.2.3.4这5个数字组成一个圆圈,从数字0开 ...
- 神经网络入门篇:详解随机初始化(Random+Initialization)
当训练神经网络时,权重随机初始化是很重要的.对于逻辑回归,把权重初始化为0当然也是可以的.但是对于一个神经网络,如果把权重或者参数都初始化为0,那么梯度下降将不会起作用. 来看看这是为什么. 有两个输 ...
- Vue01-简介与入门
Vue 01. 简介 1.1 前端三大框架 目前前端最流行的三大框架: Vue React angular 1.2 Vue简介 Vue (读音 /vjuː/,类似于 view) ,也可以写成Vue.j ...
- Go笔记(5)-String详解
String详解 Go中的字符串是一个字节的切片,可以通过将其内容封装在双引号中来创建字符串,Go中的字符串Unicode兼容的,并且是UTF-8编码,字符串是一些字节的集合 (1)创建字符串 str ...
- mac电脑升级后wifi报感叹号连不上WiFi的问题
我的mac电脑是2015款的makebook pro,13英寸,之前一直用的是10.14系统,后来看到系统更新一直在推10.15系统,我就升级了10.15系统,但是升级后就坑爹了,wifi标志直接就不 ...
- c++学习,和友元函数
第一友元函数访问私有元素时不会显示,但是是可以调用的(我使用的是gcc10.3版本的)友元函数可以访问任何元素.就是语法你别写错了. 继承如果父类已经写了构造函数,子类一定要赋值给构造函数,要么父类就 ...