CVPR2022 Oral OGM-GE阅读笔记
标题:Balanced Multimodal Learning via On-the-fly Gradient Modulation(CVPR 2022 Oral)
论文:https://arxiv.org/abs/2203.15332
领域:多模态学习
解决本质问题
在某些多模态模型的训练过程中,性能更好的模态(主导模态)会对其他模态的优化产生抑制作用,因此导致的模态间训练的不平衡现象,单一模态存在欠优化。
方法
文章主要从不同模态的梯度传播上入手,根据模态间的效果差异自适应地调制梯度,并结合高斯噪声的泛化性增强能力,提出了具有较强适用性的OGM-GE优化方法。
优点
- 即插即用,很通用直观的工作
- 实验详实,各项实验指标表明该方法的灵活有效性,应用在不同的encoder、fusion method以及优化器中都有一定提升,并且相比其他调节策略提升优势显著
缺点
- 模态间的融合方式不仅只有论文中所详细阐述的concat方式,融合的阶段也不一定要在各自模态的encoder提完特征后,在某些任务中,不同模态的地位是不相同的,分清主次模态也是一个方法,因此本文的做法有一定局限性。
- 本文动态调节梯度中的动态系数\(k_t\)的设置方法是比较handmade的,模态差异率\(\rho_t^u\)的定义符合intuition但也缺乏一定的数学解释证明,仅仅只是实验表明比较work。
- 为了弥补因为动态减少强势模态梯度所造成的泛化性减小问题而再引入高斯噪声(GN)的方式感觉不够elegant,既然这样为啥不直接增强弱势模态梯度,加强随机梯度噪声,甚至不需要添加GN?
进一步思考
如果是我,我该如何解决这个问题?这也是我一直以来在试着培养的科研思维,当然,idea is cheap,以下思路都尚待实验证明~
method1:gradient decent
如上述缺点中提到的,既然可以减少强势模态梯度,同时增加GN,相反的,也可以尝试增强弱势模态梯度,加强随机梯度噪声,甚至不需要添加GN。
method2:multi task learning
为啥会想到这个,因为我觉得思想差不多!只不过多模态是multiple in,而多任务是multiple out。
首先多任务学习可以通过不同子任务的互相约束,可以使网络减少归纳偏置、帮助收敛、提取共性特征来取得更好的性能,但是loss权重人为设定相当困难,为什么不让网络自己学习?
一种可行的方式
参考论文:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics (CVPR 2018)
本文通过建立贝叶斯模型,基于同方差不确定性建立了多任务的联合loss如下
对于更多任务的模型,根据任务类型也很容易拓展,网络将自动学习权重~
本任务中的应用流程
通过多任务加强整体任务性能,相对应的提升弱势模态优化效果。
method3:knowledge distill
由于强弱模态之间,存在学习和优化上的差异,可以类比老师和学生,一个学的好,一个学的不好,因此考虑知识蒸馏~
KD整体架构如下:
参考论文:Distilling the Knowledge in a Neural Network
一种可行的方式
参考论文:There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge (CVPR 2021)
让teacher net(含有RGB、Depth、Themal多个模态)训练student net(Audio)然后让student net单独实现定位,MTA损失来对齐学生的中间表示与教师的中间表示。
本任务中的应用流程
- gt教强模态train一个teacher net
- 强模态教弱模态, 使用强模态的输出概率值而不是onehot向量对弱模态进行训练,train student net
- 一般知识蒸馏的做法是单独用student去预测的,但这里可以进行模态fusion实现共同预测。
解决的问题本质都是模态不均衡,但思路不同,这个方法侧重于使弱模态从本质上变强。
该方法可能存在的问题:模态差异性太大,无法对齐导致效果不好。。。
method4:self-supervised learning
原先的动态系数\(k_t\)只对encoder部分进行动态调节,来使得弱势模态优化得到提升,这种方法是有点后天培养的意思,那么为啥不能直接就让encoder先天就比较厉害呢?这样我不怎么需要优化就perform well了~于是就想到了利用自监督,自监督是目前比较火的方向,通过在上游任务中先进行预训练然后应用到下游任务中往往效果比较好。
一种可行的方式
参考论文::Unsupervised learning of visual representations by solving jigsaw puzzles(ECCV 2016)
为了恢复原始的小块,Noroozi等人提出了一个称为上下文无关网络(CFN)的神经网络,如下图所示。在这里,各个小块通过相同的共享权值的siamese卷积层传递。然后,将这些特征组合在一个全连接的层中。在输出中,模型必须预测在64个可能的排列类别中使用了哪个排列,如果我们知道排列的方式,我们就能解决这个难题。
为了解决拼图问题,模型需要学习识别零件是如何在一个物体中组装的,物体不同部分的相对位置和物体的形状。因此,这些表示对于下游的分类和检测任务是有用的。
本任务中的应用流程
- 自监督预训练好各自模态的encoderA和encoderB
- 按OGM-GE实验进行的架构进行Fine-tune
method5:bilnearl pooling
OGM-GE架构中存在的另一个问题是concat的方式模态之间融合还不够充分,哪怕实验中所展示的其他fusion方式也是比较的简单的,算是一阶融合,这样就导致互相之间不同模态特征之间融合太少,学习不够充分,也可能间接导致弱势模态学的不够好,因此可以改变融合策略考虑用二阶融合,比如二阶双线性池化
由于二阶双线性池化存在维度过高,计算量过大的问题,后续的很多work都对它进行降维处理,比较的典型的就是表征能力较强的MFB方法,由于本人对于vqa领域了解不深,故不在此展开。
CVPR2022 Oral OGM-GE阅读笔记的更多相关文章
- 阅读笔记 1 火球 UML大战需求分析
伴随着七天国庆的结束,紧张的学习生活也开始了,首先声明,阅读笔记随着我不断地阅读进度会慢慢更新,而不是一次性的写完,所以会重复的编辑.对于我选的这本 <火球 UML大战需求分析>,首先 ...
- [阅读笔记]Software optimization resources
http://www.agner.org/optimize/#manuals 阅读笔记Optimizing software in C++ 7. The efficiency of differe ...
- 《uml大战需求分析》阅读笔记05
<uml大战需求分析>阅读笔记05 这次我主要阅读了这本书的第九十章,通过看这章的知识了解了不少的知识开发某系统的重要前提是:这个系统有谁在用?这些人通过这个系统能做什么事? 一般搞清楚这 ...
- <<UML大战需求分析>>阅读笔记(2)
<<UML大战需求分析>>阅读笔记(2)> 此次读了uml大战需求分析的第三四章,我发现这本书讲的特别的好,由于这学期正在学习设计模式这本书,这本书就讲究对uml图的利用 ...
- uml大战需求分析阅读笔记01
<<UML大战需求分析>>阅读笔记(1) 刚读了uml大战需求分析的第一二章,读了这些内容之后,令我深有感触.以前学习uml这门课的时候,并没有好好学,那时我认为这门课并没有什 ...
- Hadoop阅读笔记(七)——代理模式
关于Hadoop已经小记了六篇,<Hadoop实战>也已经翻完7章.仔细想想,这么好的一个框架,不能只是流于应用层面,跑跑数据排序.单表链接等,想得其精髓,还需深入内部. 按照<Ha ...
- Hadoop阅读笔记(六)——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
- Hadoop阅读笔记(五)——重返Hadoop目录结构
常言道:男人是视觉动物.我觉得不完全对,我的理解是范围再扩大点,不管男人女人都是视觉动物.某些场合(比如面试.初次见面等),别人没有那么多的闲暇时间听你诉说过往以塑立一个关于你的完整模型.所以,第一眼 ...
- Hadoop阅读笔记(四)——一幅图看透MapReduce机制
时至今日,已然看到第十章,似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁,想想后面还有一半的行程没走,我觉得这样“有口无心”的学习方式是不奏效的,或者是收效甚微的.如果有幸能有大牛路过, ...
- Hadoop阅读笔记(三)——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
随机推荐
- python常用功能模块
路径相关:os.pathlib Windows注册表相关:winreg 系统cpu.内存.线程相关:psutil 文件.文件夹处理:shutil 解析和生成ini文件:ConfigParser:(co ...
- selenium结合jmeter进行测试
背景 现在市面上有众多成熟的性能测试工具,JMeter就是其中之一.可以通过JMeter快速将已有的Selenium代码以性能测试的方式组织起来,并使用JMeter丰富的报表功能展示测试结果. 相关链 ...
- 都说Dapper性能好,突然就遇到个坑,还是个性能问题
本来闲来无事,准备看看Dapper扩展的源码学习学习其中的编程思想,同时整理一个自己代码的单元测试,为以后的进一步改进打下基础. 突然就发现问题了,源码也不看了,改了好久. 测试Dapper.Lite ...
- NOI 2019 省选模拟赛 T1【JZOJ6082】 染色问题(color) (多项式,数论优化)
题面 一根长为 n 的无色纸条,每个位置依次编号为 1,2,3,-,n ,m 次操作,第 i 次操作把纸条的一段区间 [l,r] (l <= r , l,r ∈ {1,2,3,-,n})涂成颜色 ...
- 《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(15)-Fiddler弱网测试,知否知否,应是必知必会
1.简介 现在这个时代已经属于流量时代,用户对于App或者小程序之类的操作界面的数据和交互的要求也越来越高.对于测试人员弱网测试也是需要考验自己专业技术能力的一种技能.一个合格的测试人员,需要额外关注 ...
- k8s中ingress,service,depoyment,pod如何关联
k8s中pod通过label标签名称来识别关联,它们的label name一定是一样的.ingress,service,depoyment通过selector 中app:name来关联 1.查询发布 ...
- APICloud 可视化编程 - 拖拉拽实现专业级源码
低代码开发平台是无需编码 (0 代码或⽆代码) 或通过少量代码就可以快速生成应用程序的开发平台.它的强⼤之处在于,允许终端⽤户使⽤易于理解的可视化⼯具开发自己的应用程序,而不是传统的编写代码⽅式.当遇 ...
- Python自学笔记11-函数的定义和调用
函数是组织代码的非常有效的方式,有了函数,我们就可以编写大规模的项目.可以说,函数是组织代码的最小单元. Python函数的定义 函数是代码封装的一种手段,函数中包含一段可以重复执行的代码,在需要用到 ...
- KingbaseES OOM 可能原因汇总
背景 不久前,遇到过一个问题.KingbaseES数据库主机系统触发OOM现象是数据库进程被KILL, 数据库进入crash然后restart(when restart_after_crash=on) ...
- KingbaseES OUT 类型参数过程与函数的调用方法
对于含有 out 类型参数的过程或者函数,只能通过块方式调用,这是因为,ksql 还不支持类似 Oracle 那样通过 var 定义变量. 一.带OUT的procedure 调用 创建过程: crea ...