THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor 论文解读
THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor
一种基于Transformer和混合特征提取器的红外与可见光图像融合网络
研究背景:
- 现有的图像融合方法主要是基于卷积神经网络(CNN),由于CNN的感受野较小,很难对图像的长程依赖性进行建模,忽略了图像的长程相关性,导致融合网络不能生成具有良好互补性的图像,感受野的限制直接影响融合图像的质量。
研究方法:
- 考虑到transformer的全局注意力机制,提出了一种结合CNN和vision transformer的端到端图像融合方法来解决上述问题。
整体框架
网络是一个端到端的架构,框架包括三个部分:卷积神经网络模块(CNN-module)、Vision Transformer模块(VIT-module)和图像重建模块。 前两个模块称为混合块,即混合特征提取器。

卷积神经网络模块(CNN-module):由细节分支和结构分支两部分组成。
- 细节分支:四个卷积层,卷积层之间有密集的连接操作来提取图像的深层特征。 输入特征数为16,每层卷积后的通道数为8、16、24、32。 每个卷积层的核大小为3 3,步幅为1。 为了保持特征的大小不变,我们使用反射模式来填充图像。 细节将最终输出一组大小为256x256的特征,包含32个通道。
- 结构分支:三个卷积层。 每次卷积运算后,特征的大小是前一步的一半,以达到下采样的目的。 每个卷积层的核大小为3 x3,步幅为2。 输入特征的大小为256x256,通道数为16。 每次卷积运算后特征的大小分别为128x128、64x64和32x32,特征的通道数分别为32、64和32。 为了保证该分支的通道大小和数目与前一分支一致,这里增加了一个双线性上采样层,输出32个通道、大小为256x256的特征。
Vision Transformer模块:有空间transformer和通道transformer两部分组成。如下图
- 空间transformer:将图像划分成许多patch块(每个通道都划分patch块,其中一个patch与所有通道的patch进行注意力操作),将每个patch拉成向量,patch块之间进行注意力操作。
- 通道transformer:按照图像的通道进行划分,将通道拉成向量,不同通道之间进行注意力操作。

图像重建模块: 因为前面图像的大小没有进行下采样,所以重建的时候不需要上采样,只要把图像的通道维度降下来。图像重建器设置了四个卷积层,输入特征数为64个,每层卷积后的特征通道数为64、32、16、8和1。 每个卷积层的核大小为3 3,步幅为1。 为了保持特征的大小不变,我们使用反射模式来填充图像。

损失函数
损失函数由像素损失和感知损失两部分组成。

像素损失:由三部分组成,其中LMSE是均方误差(MSE)损失函数。LSSIM表示结构相似度(SSIM)损失函数。LTV表示总方差(TV)损失函数。
- LMSE是均方误差(MSE)损失函数:对融合图像与源图像的每一点像素求差值然后平方,最后平均。

- LSSIM表示结构相似度(SSIM)损失函数:融合图像与源图像的结构相似程度。

- LTV表示总方差(TV)损失函数:该函数是抑制噪声和保留梯度信息。 噪声体现在图像中就是某一点梯度突变或者像素强度突变。
p,q是图像某一点的坐标,R(p,q)是融合图像与源图像之间的像素强度差值,R(p+1,q)和R(p,q+1)是临近点。通过约束融合图像这一点和临近点的差值,来保留原图像的梯度信息,并且抑制噪声信息。

像素损失无法代替感知损失。 例如,两个相距仅几个像素的相同图像,尽管在感知上相似,但当按每个像素的损失来衡量时,可能会有很大的不同。或者像素损失不大,但是图像感知差别很大。
我们通过两个图像特征图中的语义信息来判断两个图像的最后的感知,所以我们要从特征图入手,上面像素损失没有考虑到特征图的像素的重要性。
感知损失:使用预训练的VGG19网络去提取(融合图像,源图像)多尺度的特征。主要是想用两个特征的语义信息来确定两个特征的感知信息,进而确定两个图像的感知信息。

融合图像和可见光图像的感知损失: 使用提取的相对浅层特征(第一层)进行计算,由于浅层特征包含较多的结构信息和细节信息。
计算融合图像与红外图像的感知损失: 使用深层次的特征(第四层)来计算。因为红外图像中由更多的显著特征,语义信息。

结论
提出了一种基于VIT和卷积神经网络的红外与可见光图像融合方法。 由于我们的网络是端到端的类型,所以不需要对融合结果进行后期处理。 混合块集成了CNN-模块和VIT-模块,双分支CNN-模块具有更强的特征提取能力。 VIT-module的加入使网络能够同时考虑图像的局部信息和全局信息,避免了传统CNN网络远程依赖性差的问题。 另外,我们利用预训练的VGG19网络提取不同的特征来计算损失,有针对性地保留不同类型的图像信息。
图像融合的最终目的是与其他计算机视觉任务相结合并使之更好,因此我们接下来将尝试在其他计算机视觉任务的驱动下利用图像融合来改善原有的结果。
虽然本文的重点是红外和可见光图像融合,但本文提出的网络可以用于其他图像融合领域。 今后我们将尝试将该方法应用于多曝光和医学图像融合。
贡献点
提出了一种混合特征提取器,将双分支CNN和VIT相结合,实现了图像局部信息和全局信息的同时提取。
对VIT的网络结构进行了改进,使其更适合于图像融合。 另外,将transfomer使用在图像的通道维度上。
设计了一个有针对性的感知损失函数。 通过计算不同深度特征的损失,融合图像可以保留更多的纹理细节和显著信息。
参考原文:https://www.x-mol.com/paper/1613633839666642944?adv
THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor 论文解读的更多相关文章
- Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network
Robust Deep Multi-modal Learning Based on Gated Information Fusion Network 2018-07-27 14:25:26 Paper ...
- RFN-Nest_ An end-to-end residual fusion network for infrared and visible images 论文解读
RFN-Nest 2021 研究 图像融合分为三步:特征提取,融合策略,图像重建. 当前端到端的图像融合方法:基于GAN的.还有本文提出的 研究背景:当前设计的融合策略在为特定任务生成融合图像方面是比 ...
- 《Hyperspectral Image Classification With Deep Feature Fusion Network》论文笔记
论文题目<Hyperspectral Image Classification With Deep Feature Fusion Network> 论文作者:Weiwei Song, Sh ...
- 论文解读(SDNE)《Structural Deep Network Embedding》
论文题目:<Structural Deep Network Embedding>发表时间: KDD 2016 论文作者: Aditya Grover;Aditya Grover; Ju ...
- 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...
- 论文解读(DFCN)《Deep Fusion Clustering Network》
Paper information Titile:Deep Fusion Clustering Network Authors:Wenxuan Tu, Sihang Zhou, Xinwang Liu ...
- 论文解读(AGCN)《 Attention-driven Graph Clustering Network》
Paper Information Title:<Attention-driven Graph Clustering Network>Authors:Zhihao Peng, Hui Li ...
- 【Network Architecture】Densely Connected Convolutional Networks 论文解析
目录 0. Paper link 1. Overview 2. DenseNet Architecture 2.1 Analogy to ResNet 2.2 Composite function 2 ...
- Deep Unfolding Network for Image Super-Resolution 论文解读
Introduction 超分是一个在 low level CV 领域中经典的病态问题,比如增强图像视觉质量.改善其他 high level 视觉任务的表现.Zhang Kai 老师这篇文章在我看到的 ...
- 论文解读(Line)《LINE: Large-scale Information Network Embedding》
论文题目:<LINE: Large-scale Information Network Embedding>发表时间: KDD 2015论文作者: Jian Tang, Meng Qu ...
随机推荐
- Python-pytest -> 在自动化测试中,如何切换不同的测试环境
在构建自动化测试的脚本时候,我们可能会有不同环境的测试需求,如何实现在不同的测试环境之间切换呢?接下来介绍的这种方法,可以自定义命令行参数,从而根据不同的参数值实现不同环境的切换. 解决办法: 使用h ...
- 使用python-docx提取word中的表格
提取表格 import docx from docx import Document #导入库 path = '123.docx' #文件路径 document = Document(path) #读 ...
- Python 错误:ModuleNotFoundError: No module named 'conf'
问题描述: 编译器无法使用cmd命令来执行py文件,结果可能报ModuleNotFoundError的错误. 比如在cmd任务栏执行:python E:\myProgram\Python\spider ...
- 自学JavaDay02_class02
注释 单行注释: //单行注释 多行注释 /** 多行注释* 多行注释* */ 文档注释 /** * 文档注释 * 文档注释 */ 标识符 关键字 标识符 所有的标识符都应该以字母(A-Z 或者 a- ...
- CF 1272 D. Remove One Element
D. Remove One Element time limit per test 2 seconds memory limit per test 256 megabytes input standa ...
- 导入maven包时,非常慢的解决方案
在导入maven包时,很多时候导的很慢,导致找不到包,需要将maven包下载地址替换为aliyun的地址,以下为解决方案 找到使用的maven地址,在文件内添加以下节点然后重启ide即可 <mi ...
- white-space: pre-line;的坑
html模版解析换行 这是字符串 跟标签设置white-space: pre-line: pre兼容ie8,pre-line不兼容ie 6-7 这行文字开头是没有空格的但是还是有很大的空格,代码方法截 ...
- Mysql用户及其权限
一.创建用户 create user 'user_name' identified by 'password'; 二.用户授权 grant [权限名] on 数据库名.表名 to user_name ...
- lc.59 螺旋矩阵 II
题目描述 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix . 示例 输入:n = 3 输出:[[1,2,3],[8,9, ...
- [复现]2021DASCTF实战精英夏令营暨DASCTF July X CBCTF-PWN
EasyHeap 想可执行的地方写入orw的shellcode,利用tcachebin的df进行劫持malloc_hook 然后调用add来触发. from pwn import * context. ...