DIVFusion_ Darkness-free infrared and visible image fusion 论文解读

研究

背景：

当前图像融合方法都是针对正常照明的红外与可见光图像设计的，无法有效处理夜景下的情况。

而针对夜景下的融合可以分为以下两个步骤，1 可见光图像增强，2 可见光图像与红外图像融合。但是现存的弱光增强算法与融合算

法存在严重不兼容，简单的组合会导致一系列问题。如何建模消除两种算法的不兼容性，消除两项任务之间的差距成为当前夜间红外与可

见光图像融合的关键。

目的：

在网络中耦合增强和融合两个任务，解决夜景下的图像融合问题，并且消除两个任务之间的不兼容性。

方法：

基于通道注意机制和Retinex理论去处理图像增强（消除夜景的影响）。

设计一种纹理-对比度增强融合的网络。

贡献：

提出了一种新颖的视觉增强的红外与可见光图像融合框架，尤其在极端低光条件下。

提出了场景照明解纠缠网络SIDNet（可以剥离图像中的退化的照度信息）和纹理对比度增强网络TCEFNet（增强融合特征的纹理信息和对比度信息）。

设计一种颜色一致性损失来保证融合图像的视觉质量（减少融合图像中的颜色失真，并注入更多的可见光图像信息）。

融合结果具有好的明亮场景和高的对比度，没有颜色失真。并且在高级视觉任务中得到好的结果。

Retinex理论

Retinex理论是一种颜色恒常性的计算理论。作为人类视觉感知的一种模型，它假定观察到的图像可以分解为反射率和照度，表示为I=R*L,其中，反射率R和照度L分别表示原始图像的反射率和照度。反射率描述了物体在任何亮度条件下都可以被认为是一致的固有属性。照度取决于物体上的环境光。

由此，对于常见的图像增强策略，主要分为以下2点：

1，直接将反射分量作为增强结果

（先不论说是否能完全分解准确，反射分量往往会损失一部分信息，图像会变得非常不真实）

2，对亮度信息进行处理，再与反射分量重新组合

（为目前的主流算法，一方面，这样可以不损失图像的本质属性，而仅仅处理亮度低的部分）

Sobel算子：边缘检测（通过图像梯度进行边缘检测）

Laplacian算子:也用于边缘检测（使用二阶导数）

YCbCr颜色空间：YCbCr分别是指Y（亮度）Cb（蓝色色度）Cr（红色色度），YCbCr与RGB都是图像的颜色空间。

网络结构

本文设计了SIDNet和TCEFNet去最小化上述两任务的差距。 SIDNet可以在特征级上从源图像中把照度信息剥离出来（剩余的图像本身的性质就是增强后的图片），保留有用的信息用于后续。TCEFNet可以将特征信息进行集成，并且通过增强纹理和增强对比度两方面提升照片的视觉感知。整体框架如下图。

整体流程

1 红外图像与可见光图像的Y通道在通道上进行拼接作为输入，经过编码器得到输出然后混合特征被送到三个SEBlock块（基于Retinex和注意力通道机制）得到三个输出，分别是退化照度特征、增强可见特征、红外特征（在训练阶段三个特征被送到三个解码器可得到三张图片，红外特征和增强可见特征在通道维度上进行拼接作为SIDNet的输出，

成为TCEFNet中GRM的输入。

2 TCEFNet有GRM（负责纹理增强）和CEM（负责对比度增强）两个模块，SIDNet的输出作为GRM的输入，GRM包括主流、第一残差流（下面）、第二残差流（上面）三方面，主流的输入和第二残差流的输出进行逐元素相加（第一阶段纹理增强），相加结果经过一系列的卷积后与第一残差流的输出在通道维度上进行拼接（第二阶段纹理增强）得到GRM的输出（纹理增强后的特征）：

CEM使用不同的卷积核对输入进行卷积，将结果进行拼接（不同大小的图像特征可以直接在通道维度上拼接吗）得到然后通过Contrast Block （基于注意力机制的）得到权重向量并相乘得到输出经过解码器得到输出：此时的输出只是Y通道（YCbCr颜色空间中，Y表示亮度信息）的可见光图像与红外图像的融合结果（亮度较亮但缺失颜色信息)，将结果与原可见光图像的Cb、Cr在通道维度上进行拼接得到初始融合图像结果（结果会出现颜色失真)，然后转换到RGB颜色空间，

使用提出的颜色一致性损失函数进行调整，纠正颜色失真。

SIDNet

三个SEBlock结合Retinex理论可以从混合特征中分离出来退化照度特征、增强后的可见光特征、红外特征。在训练阶段通过解码器得到三个特征的重建图像。

TCEFNet

TCEFNet包含两个模块，GRM（梯度保留，图像纹理)、CEM（对比度增强，图像对比度）。GRM通过一个主流和两个残差流实现纹理增强。CEM通过计算得到有关对比度的权重，来实现对比度增强。

损失函数

针对SIDNet提出一种分解损失函数，前两个是红外与可见图像重建的损失函数，他们使融合图像包含更多的互补信息。第三个第四个分别是相互一致性损失和光照平滑度损失，指导SIDNet从混合特征生成退化照明分量。最后一个是感知损失（知觉损失)，它约束增强可见特征的生成。

针对TCEFNet提出一种增强-融合损失函数，第一个是纹理损失，旨在让融合图像获得更多的细节信息从源图像。第二个是强度损失，它约束融合图像保留红外图像中重要的目标信息。第三个是颜色一致性损失（最后将融合图像从YCbCr颜色空间转换到RGB颜色空间去处理颜色失真问题)，它消除在增强和融合过程中的颜色失真。

实验

训练

实验数据集来自LLVIP数据集。并且把图片裁剪成图像块获取更多的训练数据。

训练分为两阶段，第一阶段训练SIDNet，第二阶段训练TCEFNet。

测试

使用增强后的可见图像和红外图像输入到SOTA中与我们的方法进行比较。

泛化

通过测试其它公共数据集来得到模型一般化能力。

消融

对纹理损失，颜色一致性损失，梯度保留模块，对比度增强模块，SIDNet进行消融实验。

扩展

使用本文的DIVFusion应用到高级视觉任务上（行人检测)，通过定性、定量的分析，发现本文的方法产生比较好的促进作用。将红外图像、可见光图像、（SOTA+包括我们的方法）融合图像分别送到YOLO5图像检测方法中去进行行人检测任务，可以发现我们的方法达到了最好的效果，因此说明我们提出的融合模型有利于进行高级计算机视觉任务

结论

本文提出了一种基于视觉增强的夜间红外与可见光图像融合算法，实现了图像融合与图像增强的耦合互利。具体来说，SIDNet 旨在将退化光照特征与混合特征分离，避免源图像的重要信息丢失。然后，我们使用包含两个特殊模块的 TCEFNet 在融合过程中获得对比度增强和纹理保留。考虑到增强和融合任务不兼容导致的颜色失真，我们设计了一个颜色一致性损失来调整融合图像的颜色分布。与最先进方法的定性和定量比较验证了我们方法的优越性，包括视觉感知、场景亮度和互补信息集成。还进行了两阶段融合实验，以说明我们的方法有效地帮助减轻了融合和增强任务之间的不兼容性。此外，行人检测实验证明了我们的 DIVFusion 在高级计算机视觉任务中的潜力。

我们的方法以及其他方法的局限性在于解决暴露降解的能力较差。我们提供了一个典型的例子来直观地说明这一点，如图13所示。尽管所有融合方法都无法消除前灯区域的过度曝光效果，但与其他算法相比，我们的方法在其他区域提供了更自然的视觉感知。一种可能的解决方案是通过高斯分布对点光源进行建模，并设计分解网络以从可见图像中剥离过曝光图。由于在过度曝光区域的可见图像中缺乏有效信息，因此我们将在融合过程中整合更多信息以从红外图像中修复过度曝光区域。将来，我们将进一步设计一个照度调整模块，以解决红外和可见光图像融合任务中的弱光和过度曝光退化问题。

论文来源：https://www.sciencedirect.com/science/article/abs/pii/S156625352200210X