THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor

一种基于Transformer和混合特征提取器的红外与可见光图像融合网络

研究背景:

  • 现有的图像融合方法主要是基于卷积神经网络(CNN),由于CNN的感受野较小,很难对图像的长程依赖性进行建模,忽略了图像的长程相关性,导致融合网络不能生成具有良好互补性的图像,感受野的限制直接影响融合图像的质量。

研究方法:

  • 考虑到transformer的全局注意力机制,提出了一种结合CNN和vision transformer的端到端图像融合方法来解决上述问题。

整体框架

网络是一个端到端的架构,框架包括三个部分:卷积神经网络模块(CNN-module)、Vision Transformer模块(VIT-module)和图像重建模块。 前两个模块称为混合块,即混合特征提取器。

卷积神经网络模块(CNN-module):由细节分支和结构分支两部分组成。

  • 细节分支:四个卷积层,卷积层之间有密集的连接操作来提取图像的深层特征。 输入特征数为16,每层卷积后的通道数为8、16、24、32。 每个卷积层的核大小为3 3,步幅为1。 为了保持特征的大小不变,我们使用反射模式来填充图像。 细节将最终输出一组大小为256x256的特征,包含32个通道。
  • 结构分支:三个卷积层。 每次卷积运算后,特征的大小是前一步的一半,以达到下采样的目的。 每个卷积层的核大小为3 x3,步幅为2。 输入特征的大小为256x256,通道数为16。 每次卷积运算后特征的大小分别为128x128、64x64和32x32,特征的通道数分别为32、64和32。 为了保证该分支的通道大小和数目与前一分支一致,这里增加了一个双线性上采样层,输出32个通道、大小为256x256的特征。

Vision Transformer模块:有空间transformer通道transformer两部分组成。如下图

  • 空间transformer:将图像划分成许多patch块(每个通道都划分patch块,其中一个patch与所有通道的patch进行注意力操作),将每个patch拉成向量,patch块之间进行注意力操作。
  • 通道transformer:按照图像的通道进行划分,将通道拉成向量,不同通道之间进行注意力操作。

图像重建模块: 因为前面图像的大小没有进行下采样,所以重建的时候不需要上采样,只要把图像的通道维度降下来。图像重建器设置了四个卷积层,输入特征数为64个,每层卷积后的特征通道数为64、32、16、8和1。 每个卷积层的核大小为3 3,步幅为1。 为了保持特征的大小不变,我们使用反射模式来填充图像。

损失函数

损失函数由像素损失感知损失两部分组成。

像素损失:由三部分组成,其中LMSE是均方误差(MSE)损失函数。LSSIM表示结构相似度(SSIM)损失函数。LTV表示总方差(TV)损失函数。

  • LMSE是均方误差(MSE)损失函数:对融合图像与源图像的每一点像素求差值然后平方,最后平均。

  • LSSIM表示结构相似度(SSIM)损失函数:融合图像与源图像的结构相似程度。

  • LTV表示总方差(TV)损失函数:该函数是抑制噪声和保留梯度信息。 噪声体现在图像中就是某一点梯度突变或者像素强度突变。

p,q是图像某一点的坐标,R(p,q)是融合图像与源图像之间的像素强度差值,R(p+1,q)和R(p,q+1)是临近点。通过约束融合图像这一点和临近点的差值,来保留原图像的梯度信息,并且抑制噪声信息。

像素损失无法代替感知损失。 例如,两个相距仅几个像素的相同图像,尽管在感知上相似,但当按每个像素的损失来衡量时,可能会有很大的不同。或者像素损失不大,但是图像感知差别很大。

我们通过两个图像特征图中的语义信息来判断两个图像的最后的感知,所以我们要从特征图入手,上面像素损失没有考虑到特征图的像素的重要性。

感知损失:使用预训练的VGG19网络去提取(融合图像,源图像)多尺度的特征。主要是想用两个特征的语义信息来确定两个特征的感知信息,进而确定两个图像的感知信息。

融合图像和可见光图像的感知损失: 使用提取的相对浅层特征(第一层)进行计算,由于浅层特征包含较多的结构信息和细节信息。

计算融合图像与红外图像的感知损失: 使用深层次的特征(第四层)来计算。因为红外图像中由更多的显著特征,语义信息。

结论

提出了一种基于VIT和卷积神经网络的红外与可见光图像融合方法。 由于我们的网络是端到端的类型,所以不需要对融合结果进行后期处理。 混合块集成了CNN-模块和VIT-模块,双分支CNN-模块具有更强的特征提取能力。 VIT-module的加入使网络能够同时考虑图像的局部信息和全局信息,避免了传统CNN网络远程依赖性差的问题。 另外,我们利用预训练的VGG19网络提取不同的特征来计算损失,有针对性地保留不同类型的图像信息。

图像融合的最终目的是与其他计算机视觉任务相结合并使之更好,因此我们接下来将尝试在其他计算机视觉任务的驱动下利用图像融合来改善原有的结果。

虽然本文的重点是红外和可见光图像融合,但本文提出的网络可以用于其他图像融合领域。 今后我们将尝试将该方法应用于多曝光和医学图像融合。

贡献点

  • 提出了一种混合特征提取器,将双分支CNN和VIT相结合,实现了图像局部信息和全局信息的同时提取。

  • 对VIT的网络结构进行了改进,使其更适合于图像融合。 另外,将transfomer使用在图像的通道维度上

  • 设计了一个有针对性的感知损失函数。 通过计算不同深度特征的损失,融合图像可以保留更多的纹理细节和显著信息。

参考原文:https://www.x-mol.com/paper/1613633839666642944?adv

THFuse: An infrared and visible image fusion network using transformer and hybrid feature extractor 论文解读的更多相关文章

  1. Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

    Robust Deep Multi-modal Learning Based on Gated Information Fusion Network 2018-07-27 14:25:26 Paper ...

  2. RFN-Nest_ An end-to-end residual fusion network for infrared and visible images 论文解读

    RFN-Nest 2021 研究 图像融合分为三步:特征提取,融合策略,图像重建. 当前端到端的图像融合方法:基于GAN的.还有本文提出的 研究背景:当前设计的融合策略在为特定任务生成融合图像方面是比 ...

  3. 《Hyperspectral Image Classification With Deep Feature Fusion Network》论文笔记

    论文题目<Hyperspectral Image Classification With Deep Feature Fusion Network> 论文作者:Weiwei Song, Sh ...

  4. 论文解读(SDNE)《Structural Deep Network Embedding》

    论文题目:<Structural Deep Network Embedding>发表时间:  KDD 2016 论文作者:  Aditya Grover;Aditya Grover; Ju ...

  5. 论文阅读笔记(二十一)【CVPR2017】:Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identification

    Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失 ...

  6. 论文解读(DFCN)《Deep Fusion Clustering Network》

    Paper information Titile:Deep Fusion Clustering Network Authors:Wenxuan Tu, Sihang Zhou, Xinwang Liu ...

  7. 论文解读(AGCN)《 Attention-driven Graph Clustering Network》

    Paper Information Title:<Attention-driven Graph Clustering Network>Authors:Zhihao Peng, Hui Li ...

  8. 【Network Architecture】Densely Connected Convolutional Networks 论文解析

    目录 0. Paper link 1. Overview 2. DenseNet Architecture 2.1 Analogy to ResNet 2.2 Composite function 2 ...

  9. Deep Unfolding Network for Image Super-Resolution 论文解读

    Introduction 超分是一个在 low level CV 领域中经典的病态问题,比如增强图像视觉质量.改善其他 high level 视觉任务的表现.Zhang Kai 老师这篇文章在我看到的 ...

  10. 论文解读(Line)《LINE: Large-scale Information Network Embedding》

    论文题目:<LINE: Large-scale Information Network Embedding>发表时间:  KDD 2015论文作者:  Jian Tang, Meng Qu ...

随机推荐

  1. luogu 4142

    费用流好题 本题的建图很有意思 正常我们看到棋盘问题应该先对整个棋盘黑白染色构成一个二分图,然后再考虑建图的问题 但是本题题目中已经明确区分了不同的斜线,问题在于怎么保证一个"L" ...

  2. uniapp 全局注册组件注意事项

    标准 根目录components  文件夹下建立 组件文件名文件夹 然后组件 autoscan  打开 别的用不到不写 全局使用 备注 因为不是vuecli 项目 只在H5 端生效  在app  上生 ...

  3. Shell脚本基本命令5

    1.sort的稳定性 例以前面两个字段为键值,排序这四行 $ sort -t_  -k1,1 -k2,2 <<EOF one_two one_two_three one_two_four ...

  4. 2019 CSP J/S第2轮 视频与题解

    CSP入门组和提高组第二轮题解 转自网络

  5. Qt回车键提交文本代码

    QTextEdit 文本框中 回车键提交文本,Ctrl+回车键实现换行的代码: void QTextEdit::keyPressEvent(QKeyEvent * e) { e->ignore( ...

  6. SQL Server链接数据库

    有时候我们希望在一个sqlserver下访问另一个sqlserver数据库上的数据,或者访问其他oracle数据库上的数据,要想完成这些操作,我们首要的是创建数据库链接. 数据库链接能够让本地的一个s ...

  7. pytesseract文字识别

    import pytesseract from PIL import Image im=Image.open('image.png') print(pytesseract.image_to_strin ...

  8. CVE-2016-2183(SSL/TLS)漏洞的办法

    运行gpedit.msc,打开"本地组策略编辑器" 启用"SSL密码套件顺序" TLS_ECDHE_ECDSA_WITH_AES_128_GCM_SHA256_ ...

  9. SEGGER_RTT_printf()函数添加打印浮点数功能

    SEGGER 的实时传输 (RTT) 是一种用于嵌入式应用程序中交互式用户 I/O 的技术.它以非常高的性能结合了 SWO 和半主机的优势.但是在笔者使用时(RTT v758版本),其暂时不支持浮点数 ...

  10. PHP精度计算函数

    bcadd - 将两个高精度数字相加 bccomp - 比较两个高精度数字,返回-1, 0, 1 bcdiv - 将两个高精度数字相除 bcmod - 求高精度数字余数 bcmul - 将两个高精度数 ...