Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020)
Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020)
1. Motivation
- 可见光图像包含颜色、外观等信息,波长较短;红外图像包含结构和轮廓信息,波长较长,两个模态差异大
- 当前存在的方法都有以下弊端:对参数敏感,难收敛,计算量大。如何减少两个模态间的差异成为了解决跨模态行人重识别的关键问题。
- 大部分方法都是将两个模态图像映射到同一个特征空间,如图 (a) 所示(颜色一样的为同一个id的行人),直接映射的方式,难以很好的把两个模态的同一个id聚类到一起,因此本文提出了一个引入中间模态X,用轻量级网络,以自监督的方式学习到可见光和红外图像的知识。如图 (b) 所示,将难的双模态的跨模态 ReID 任务转化为较为容易的三模态的跨模态 ReID 任务。
2. Method
X Modality
- 简述
相对于其他方法(cmGAN,AlignGAN)用GAN方法学习判别性特征,GAN更为复杂、难训练,而本文提出的 X 模态是一种用轻量级网络,以自监督方式,额外代价可忽略不计的生成器生成的中间辅助模态,更为容易训练。
- 组成
由两个 1x1 的卷积和一个 ReLU 激活层构成,可见光图像作为输入, 先用一个 1x1 卷积处理为单通道图像,再用另外一个 1x1 卷积进行升维,恢复成三通道图像。ReLU 激活层用于提高网络的非线性表达能力。
优点
- 可以用可见光图像的标签作为训练标签,以一种自监督方式进行训练
- GAN方式的重建信息包括通道维度和空间维度信息,这样会破坏原始的空间结构信息,且复杂难以优化。而本文的轻量级网络只对通道信息进行恢复,简单且容易训练。
Testing
在测试阶段,选择红外图像(IR)作为查询,可见光图像(RGB)作为候选集,检索出与查询图像距离(欧氏距离)和最小的RGB图像和X模态图像,返回其索引,公式如下:
Overall
本文方法:先用一张RGB图像生成X模态的图像,然后将RGB、IR、X三个模态的图像分别输入同一个backbone(ResNet-50)中,使用模态间(CMG)和模态内(MRG)两个约束进行训练。接下来介绍 CMG 和MRG 两个约束:
- CMG



跨模态约束(CMG)包含两个部分,分别是 IR 模态和 X 模态之间的 cross 损失和 IR 模态和 RGB 模态之间的 cross 损失。这里的 cross 损失与Triplet 损失相似,其目的是将两个模态间同一个ID行人的图像距离拉近,不同ID的距离拉远。从而达到 IR-X、 IR-RGB 跨模态间的正样本距离拉近。
- MRG

对于 IR 模态:



模态内约束(MRG)由三个模态的损失构成,这里只说明 IR 模态下的损失,其余两个模态同理可得。IR 模态内的损失由两部分构成,一个是 id 损失,一个是 triplet 损失,相对于 CMG 比较简单。
- Optimization

上式为整个网络训练损失函数,其中,$ \lambda $ 是 CMG 的权重系数,用于衡量跨模态约束的对整体性能提升的贡献。
3. Experiments
I. Comparison with sota

总体来说,在两个数据集上都取得较为明显的提升。


与 cmGAN, D$ ^2 $RL , AlignGAN 使用同一个 backbone, 本文的方法在 SYSU-MM01 上提升更多。
II. Ablation study

其中 Baseline 表示只使用两个模态内的损失 $ \mathcal{L}_V $ 和 $ \mathcal{L}_I $ 进行训练; Baseline + X 表示引入 X 模态后,使用模态内的损失 $ \mathcal{L}_V $、 $ \mathcal{L}_I $ 和 $ \mathcal{L}_X $ ; Baseline + X + CMG 表示在使用模态内损失的基础上加入模态间损失 CMG。 由表可见,引入 X 模态有助于降低两个模态的差异性,使用 CMG 损失能进一步提升跨模态 ReID 任务的性能。
III. Discussions
A closer look at X


由上图知,可见光图像的三个颜色通道的统计是相似的,然而在 X 模态中,R 通道的强度比 G、B两个通道更强,可视化的视觉效果就是,X模态的图像偏红,介于 RGB 和 IR 两个模态之间,验证了通过引入中间模态有助于减小跨模态之间的鸿沟。

Table 5 展示了用其他方案生成的模态替代 X 模态的实验结果。其中 Mean 表示将 RGB 图像进行逐通道计算均值,Gray 表示将 RGB 图像转化为灰度图,V 表示选取 RGB 图像的 HSV 颜色空间中的 V 信息; Y 表示选取 RGB 图像的 YCbCr 颜色空间中的 Y信息。由实验可知,采用轻量级网络生成的 X 模态效果最佳。
IV. Parameter analyse

4. Conclusion
本文亮点在于引入一个中间模态 X,旨在减少两个模态间的差异性,更好的学习到两个模态间的联系。
X 模态是由一个轻量级网络,以自监督方式生成的,额外计算量可忽略不计。
Infrared-Visible Cross-Modal Person Re-Identification with an X Modality (AAAI 2020)的更多相关文章
- 关于Delphi错误:Cannot make a visible window modal
Delphi的fsMDIChild类型的窗体是不能使用ShowModal的,否则会弹出"Cannot make a visible window modal"异常, 但是把fsMD ...
- {ICIP2014}{收录论文列表}
This article come from HEREARS-L1: Learning Tuesday 10:30–12:30; Oral Session; Room: Leonard de Vinc ...
- Image Processing and Computer Vision_Review:Local Invariant Feature Detectors: A Survey——2007.11
翻译 局部不变特征探测器:一项调查 摘要 -在本次调查中,我们概述了不变兴趣点探测器,它们如何随着时间的推移而发展,它们如何工作,以及它们各自的优点和缺点.我们首先定义理想局部特征检测器的属性.接下来 ...
- 2016CVPR论文集
http://www.cv-foundation.org/openaccess/CVPR2016.py ORAL SESSION Image Captioning and Question Answe ...
- CVPR2016 Paper list
CVPR2016 Paper list ORAL SESSIONImage Captioning and Question Answering Monday, June 27th, 9:00AM - ...
- Kendo UI使用笔记
1.Grid中的列字段绑定模板字段方法参数传值字符串加双引号: 上图就是个典型的例子,openSendWin方法里Id,EmergencyTitle,EmergencyDetail 三个参数,后两个参 ...
- [转]Angular——提示框
本文转自:https://blog.csdn.net/whm18322394724/article/details/80177950 版权声明:本文为博主原创文章,未经博主允许不得转载. https: ...
- (转)Awesome Knowledge Distillation
Awesome Knowledge Distillation 2018-07-19 10:38:40 Reference:https://github.com/dkozlov/awesome-kno ...
- 论文笔记之:Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11 19:40:22 Moti ...
随机推荐
- angular - collapse--TemplateRef
用的ant collapse组件 需要自定义Header 请忽略前面的dw... 主要是TemplateRef<void> 查了半天.可以实现效果,直接上代码,我也不懂为什么 反正实现了 ...
- Xcode调试之exc_bad_access以及 message sent to deallocated instance
如果出现exc_bad_access错误,基本上是由于内存泄漏,错误释放,对一个已经释放的对象进行release操作.但是xcode有时候不会告诉你错误在什么地方(Visual Studio这点做得很 ...
- python初学者必看学习路线图!!!
python应该是近几年比较火的语言之一,很多人刚学python不知道该如何学习,尤其是没有编程基础想要从事程序员工作的小白,想必应该都会有此疑惑,包括我刚学python的时候也是通过从网上查找相关资 ...
- nes 红白机模拟器 第8篇 USB 手柄支持
买了一个支持 USB OTG, 蓝牙 连接的 安卓手柄. 接到 ubunto 上 dmesg 可以看到识别出来的信息,内核已经支持了. usb - using uhci_hcd usb - usb - ...
- PyCharm设置远程虚拟环境
1. 创建项目 2. 配置解释器 1. 先打开srttings 2. 选择配置解释器选项 3. 配置远端虚拟环境 4. 成功提示 5. 查看pip列表信息 经过以上操作,PyCharm设置远程虚拟环境 ...
- JVM05——JVM类加载机制知多少
我们已经讲过 JVM 相关的很多常见知识点,感兴趣的朋友可以在我的往期文章中查看.接下来将继续为各位带来 JVM 类加载机制.关注我的公众号「Java面典」了解更多 Java 相关知识点. 类生命周期 ...
- css中:overflow:hidden清除浮动的原理
要想彻底清除浮动的影响,适合的属性不是 clear 而是 overflow. 一般使用 overflow:hidden,利用 BFC 的“结界”特性彻底解决浮动对外部或兄弟元素的影响. 1. 前言: ...
- (转)浅析epoll – epoll例子以及分析
原文地址:http://www.cppfans.org/1419.html 浅析epoll – epoll例子以及分析 上篇我们讲到epoll的函数和性能.这一篇用用这些个函数,给出一个最简单的epo ...
- H5页面,输入框的光标,如果页面上下滑动光标停留在页面上,除了输入框外,松手过了一段时间才跑回输入框里面
有点类似这种情况 其中一个博主描述得比较详细,主要还有图 我是直接在App.vue主文件那里添加一下代码,主要是添加一个监听器,如果touchmove的时候就会触发让其失焦,就会消失那个光标,需要再次 ...
- 【Weiss】简单说一下这一分类下的东西
主要是学习资料<数据结构与算法分析>(Weiss)的习题 除去习题外,每一章主要用到的数据结构先会写一个版本放上来,包括数据结构代码与测试用代码 这种先行上传的代码只具有基本的功能,毕竟一 ...