小言_互联网的博客

【读论文】Self-supervised feature adaption for infrared and visible image fusion

498人阅读  评论(0)


论文: https://www.sciencedirect.com/science/article/pii/S1566253521001287

如有侵权请点击蓝字联系博主

介绍

依旧是图像融合

小知识

  • 可见光图像主要表示具有详细内容纹理的反射光信息

  • 红外图像则表示具有高对比度像素强度的热辐射信息

常用的两类用于图像融合的神经网络架构

  • 对两类图像采用相同的卷积算子进行特征自适应,但是,由于红外和可见光图像的域差异,同一卷积算子如果没有专门的特征提取设计,很容易丢失重要的细节,其中DenseFuse就属于这一类,需要了解的话可以看一下这个 =》DenseFuse《=

  • 第二类是使用GAN进行图像融合。以FusionGAN来介绍,生成器生成融合图像,辨别器识别图像是可视图像还是融合图像,通过生成器和辨别器的对抗,从而最终增加合成图像的纹理细节。但是GAN很难优化,最终会影响融合效果。需要了解的话可以看一下这个 =》FusionGAN《=

红外融合的障碍

  • 红外图像和可视图像的重要信息差异很大,采用相同的卷积算子进行特征提取,会导致重要信息的缺失。

  • 融合结果的ground truth不足,在DenseFuse和FusionGAN中也同样提到了。(两篇文章解决这个问题的方法不是很相同,DenseFuse使用SSIM和像素损失来评价融合图像的质量,FusionGAN则是将融合图像和可视图像作为对抗对象来训练。)

贡献

特征自适应的思想整合到红外和可见光图像融合中,提出了一种新的自监督特征自适应框架。提出了一种自监督的特征自适应策略,通过重构源图像避免了重要特征的丢失

针对源图像中含有低质量信息的情况,在自适应提取特征的前提下,设计了一种新的红外和可见光图像融合增强方法。

我们对所提出的方法进行定性和定量评估。与现有的基于CNN和手工制作的特征方法相比,我们的方法实现了最先进的性能。

相关工作

图像融合的代表方法如下

  • 多尺度变换
  • 稀疏表示
  • 基于子空间的方法
  • 神经网络
  • 基于显著性的方法
  • 混合模型

(ps:由于博主关注的主要是神经网络方面的图像融合方法,对其他的不是很了解,这里只是提一下)

基于深度学习的融合方法

Liu等人应用孪生卷积网络生成红外和可见光图像的权重图,然后在融合过程中采用多尺度图像金字塔和局部相似性度量,以获得更好的可见光感知。Li等人使用VGG网络进行深度特征提取,这些特征进一步用于通过多层融合策略生成权重图。Li等人[26]采用残差网络从源图像中提取深度特征,并且通过基于零相位分量分析(ZCA)对深度特征进行归一化来生成权重图。

解释下上面提到的几个名词

孪生卷积网络

  • 可以认为是两个结构相同,共享权重的神经网络。可以用于判断两张图片的特征是否相同,即两张图片作为输入输入到网络中,在经过卷积,池化,全连接之后最终得到二者是否相同的结果。
  • 另一种则是随机两个神经网络进行组合,不需要限制结构或权重相同

VGG网络
在我的理解来看,VGG网络就是CNN网络和全连接网络的组合。例如VGG16,如下图

DenseFuse

用于红外图像融合,网络的结构由编码器,融合层和解码器组成。
具体内容可以阅读原文==》https://arxiv.org/abs/1804.08361
或者可以参考博客讲解==》DenseFuse: A Fusion Approach to Infrared and Visible Images 阅读笔记

IFCNN,U2Fusion

还没有了解过,这里就不描述了。

基于GAN的特征自适应方法

FusionGAN

使用GAN的生成器和辨别器来进行对抗,辨别器判断图像属于融合图像还是可视图像,生成器生成融合图像,二者的损失函数促使辨别器辨别能力越来越好,同时由于生成器的损失函数包含了梯度信息,从而融合图像的梯度信息会越来越接近可视图像,再加上通过与辨别器的对抗,融合图像的纹理会越来越丰富。(纹理的丰富不仅仅依靠于梯度信息,通过GAN的对抗,也会使得其他因素的作用呈现到融合图像中,例如对比度,饱和度等信息)

具体内容可以阅读原文==》https://www.sciencedirect.com/science/article/pii/S1566253518301143
或者可以参考博客讲解==》FusionGAN: A generative adversarial network for infrared and visible image fusion 阅读笔记

DDcGAN

还没有了解过,这里就不描述了。


但是,基于GAN的模型很难优化,这最终导致融合图像的透视形变。

透视形变参考该博客==》透视形变(perspective distortion)

提出的方法

论文中提到的方法包含两部分,分别是自监督特征自适应网络(SFANet)和红外和可见光图像增强融合网络(IVFENet)。结构如下,还是经典的编码器-解码器网络,包含一个特征提取的编码器和两个具有注意力机制块的解码器,以自监督方式来重建图像。提取的特征被输入到IVEFNet中用于图像的融合。

SFANet


IVFENet的网络结构如上图所示,包含解码器块,注意力机制块和解码器块。

解码器块

解码器块有五块,从第一块到第五块,卷积核的数目分别64,128,256,512,512,卷积核大小都是3*3

每块又有四层,分别是三层卷积层和一层池化层

注意力

注意力机制块由两个相同结构的SE分支组成

SE的结构如下(一种实现注意力的方式)

大致可以理解为编码器卷积的结果,经过Ftr(可以理解为一层卷积)变成了U,然后求出每个channel的平均值,就组成了图中没有颜色的11c的向量,经过全连接和激活后就变成了彩色的11c的向量,最后将该向量与U进行对应相乘,就得到了最终的输出。

通过这种机制,理论上可以放大所需的特征,抑制不需要的特征

这里的Fh就是编码器求出的特征,V就是在SE种求出的权重,与原有混合特征相乘后,从而得到放大的可视图像特征或则红外图像特征。

解码器

每个解码器网络包含五个块,每个块包含三个反卷积层和一个上采样层,卷积核的数量依次512,512,256,128和64,卷积核大小设置为3*3。

解码器是自监督方式进行训练,将源图像作为groud truth,这样强制编码器在特征自适应期间保留重要特征。

总结

整个前向传播过程就很清晰了,如下

  • 将可视图像和红外图像相连接后作为编码器的输入
  • 经过编码器编码之后,将混合图像的特征输入到注意力块中
  • 通过注意力块后生成一个具有放大我们所需特征的特征矩阵
  • 两个解码器以注意力块的输出为输入,重建图像,以源图像为ground truth

在进行反向传播时,就可以通过重建图像和源图像的差异来促使注意力块更倾向于放大我们所需的特征以及增强编码器的提取特征能力

IVFENet

该模块目标是利用从SFANet获得的具有自适应的重要特征来生成融合结果。网络结构图如上所示。

这里可能有点疑惑,为啥这么眼熟

好像前半部分和SFANet中的前半部分好像有点像,在读过论文之后,我觉得这两前半部分就是相同的。

后半部分才是融合的部分

融合模型由一系列反卷积层组成,具有3*3的核和512、512、512、512,512,256、256、128、128、64和64个通道,每个层都有一个上采样层。最后,进一步采用了一组卷积层,以与边缘细节和基于对比度的损失相协调来增强融合结果。

训练

SFANet

训练SFAnet的损失函数如下,I1,I2分别是红外图像和可视图像,Ir1,Ir2分别是重建后的红外图像和可视图像。

先训练SFANet,然后使用SFANet的固定的

IVFENet

这里相对复杂一点
(DeepFuse那里没看懂,这里好像稍微明白点了)

在SSIM中图像是由以下公式表示的


这里的Cn可以理解为图像像素与像素均值之间的差异,再求范数

Sn则是图像像素与像素均值之间的差异,再除Cn

期待的融合图像为上面二者相乘

这里的I的结果没有加上ln(亮度),在Deepfuse中有解释,但是没大看懂,这里贴一下原文

As the luminance comparison in the local patches is insignificant, the luminance component is discarded from above equation. Comparing luminance at lower spatial resolution does not reflect the global brightness consistency. Instead, performing this operation at multiple scales would effectively capture global luminance consistency in coarser scale and local structural changes in finer scales.

因为我们没有目标图像,用输入的红外图像和可视图像来表示目标图像,公式如下

将上面的两个值带入I的公式即可得到目标图像。

以上的篇幅只是在讲怎么获取目标图像,接下来才是损失函数,If代表融合出来的图像,代表目标图像。


SSIM越大越好,即下面公式越小越好

到这里还没有结束,因为文章中还提到了设计了基于边缘细节和对比度的可见感知损失。


这里的G是高斯滤波,求出图像的对比度信息,但是MSE确实没有看懂。。。。。。希望评论区大佬解读下。

最终的损失函数如下

总结

在这篇论文中学到了很多,虽然还是有不懂的地方,但是又学到了一个新的图像融合的方式。论文中让我印象最深的就是SE,注意力机制和上采样层,还有就是对SSIM这个损失函数的理解更清晰一点了。
遗憾的就是不知道最后一个损失函数的计算方式,还有就是没有源码。

参考

[1] Self-supervised feature adaption for infrared and visible image fusion


转载:https://blog.csdn.net/qq_43627076/article/details/127560488
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场