【基于注意力和阶段迭代网络:Pansharpening】

Attention-Based and Staged Iterative Networks for Pansharpening of Remote Sensing Images

(基于注意力和阶段迭代网络在遥感图像泛锐化中的应用)

全色锐化方法结合了全色(PAN)图像和多光谱(MS)图像的互补特征,以提供高分辨率的MS图像。因此,如何完整地提取特征,高质量地重建图像是获得理想融合图像的关键环节。我们提出了一个基于注意力的阶段迭代网络***(ASIN)框架***,该框架将迭代网络的每个子网络视为多级泛锐化过程,并在每个阶段进行特征提取和图像重建。使用跨阶段深度特征的迭代网络的优点来分层提取MS图像和PAN图像的细化特征以用于图像重建,我们使用大核注意力(LKA)模块级联非对称耦合表示模块来构建特征提取框架,并使用注意力融合模块(AFM)在图像重建阶段融合PAN和MS的特征。LKA具有信道和空间自适应性,以及较强的长距离相关建立能力,使得特征提取更加完整。非对称耦合表示模块(ACRM)通过学习MS和PAN图像的混合相关性来输出精确的光谱和空间特征。AFM有效地利用了输入的光谱和空间特征,使网络能够减少信息丢失并保留重要信息。在QuickBird(QB)、WorldView-2(WV 2)和Gaofen-2(GF-2)数据集上,通过定量比较和定性分析,证明了该方法上级对比方法的性能。

介绍

遥感传感卫星为人们提供了地球表面的表示。由于受传感器成像系统的限制,单个传感器无法提供高分辨率的多光谱(MS)图像,因此卫星搭载不同的传感器,以提供同一区域空间分辨率低但光谱信息丰富的MS图像和空间分辨率高但光谱分辨率低的全色(PAN)图像。泛锐化方法组合来自PAN图像和MS图像的互补特征以提供高分辨率MS图像。图1示出了由卫星提供的MS图像和PAN图像,以及全色锐化的结果图像。泛锐化广泛用于农业监测、环境监测和平面测绘等应用。此外,全色锐化是用于高级处理的预处理方法,例如遥感图像目标检测和遥感分割。因此,全色锐化得到了广泛的研究,并正在迅速发展。
目前,关于泛锐化的研究主要分为两大类。第一类是基于简单模型的泛锐化方法,包括基于多分辨率分析(MRA)的方法和基于分量替换(CS)的方法。第二类是基于复杂模型的泛锐化方法,包括基于深度学习(DL)的方法和基于变分优化(VO)的方法。
CS-Based Method: 通过光谱变换,在变换域区分空间信息和光谱信息,用PAN图像的空间信息代替MS图像的空间信息,最后通过光谱逆变换得到高分辨率的MS图像。CS方法由于其简单的操作原理而引起了快速发展,代表性方法包括Gram-Schmidt(GS)方法和主成分分析(PCA)。虽然基于CS的方法操作简单,但在提取和替换过程中容易丢失空间信息。因此,研究人员提出了改进PAN图像到MS图像中的空间信息注入的规则,例如自适应GS(GSA),并且融合的结果图像能够保留更多的空间信息。
MRA-Based Method: MRA通过分解PAN图像的空间信息并将其注入到插值的MS图像中以获得最终结果来工作。例子包括小波变换、广义拉普拉斯金字塔(GLP)等,但MRA方法在全色锐化过程中不会改变MS光谱的原始结构,因此与基于CS的方法相比,光谱信息基本没有丢失,但MRA方法容易出现严重的空间细节失真。已经对基于MRA的方法进行了改进,以通过非线性方法获得更好的分解和注入方案,并且已经获得了高级的广义锐化方法,例如形态滤波器(MF)和调制传递函数(MTF-GLP),以生成高质量的结果图像。
VO-Based Method: VO方法是基于变分理论来构造和优化能量泛函。基于稀疏表示的方法是一种VO方法,其特征在于字典学习。例如,Li和Yang 首先提出使用稀疏正则化信号恢复来解决泛锐化问题,有效地获得了高质量的融合结果图像。Guo等人提出了一种在线耦合字典学习方法,并获得了理想的结果。基于模型的方法是另一种VO方法。Ballester等人估计PAN图像包含光谱通道,因此高分辨率可以通过低分辨率的卷积和通过构建能量泛函的泛锐化来表示。Meng等人提出了一种基于VO模型的融合框架,以优化光谱保真度并执行空间增强。基于VO的方法弥补了第一类型的传统方法的缺点,但是第一类型的传统方法在计算上是廉价的,而基于VO的方法在计算上是复杂的。
DL-Based Method: 基于DL的方法被广泛用于图像处理,并且在不同领域取得了优异的结果,例如图像去噪和图像超分辨率。Huang等人首次提出了一种基于DL的泛锐化方法,其处理过程是基于预处理网络来获得融合图像。Masi等人提出了一种基于超分辨率卷积神经网络(CNN)的用于泛锐化的概率神经网络(PNN),但网络架构较浅,难以提取深度有效特征。Scarpa等人提出了一种基于简单PNN的PNN+网络,它可以自适应地应用于不同的目标,并且比PNN具有更好的性能。Shao和Cai提出的RSIFNN方法由两个分支网络组成,用于提取光谱和空间特征。然而,基于DL的广义锐化问题的方法是非线性和复杂的,并且特征提取和融合过程不能保证完整性。为此,我们提出了基于注意力的分阶段迭代网络(ASIN)。本文提出的ASIN方法在QuickBird(QB)、WorldView-2(WV 2)和Gaofen-2(GF-2)数据集上进行了消融和比较实验,以验证其上级的性能。

贡献

1)我们提出了ASIN泛锐化遥感图像。ASIN的主体是一个使用递归层的迭代网络,迭代网络的每个子网络被视为多级泛锐化。最后得到了理想的融合结果。每个递归层利用门控递归单元(GRU)来确保网络性能,同时减少网络参数。
2)ASIN的每个阶段都包含一个特征提取阶段(FES),其重点是通过大内核注意力(LKA)和非对称耦合表示模块(ACRM)进行特征提取,以分别学习PAN和MS图像特征及其混合相关性,以去除噪声,同时减少提取过程中PAN和MS图像特征的损失,这对于图像重建任务至关重要。
3)ASIN的每个阶段包括图像重建阶段(IRS),其通过注意力融合模块(AFM)完全捕获由FES输出的空间和光谱特征。光谱和空间特征被分开操作以有效地利用输入光谱和空间特征,使得网络可以减少信息损失并保留重要信息,从而促进ASIN方法生成期望的结果。

相关工作

Deep Learning-Based Pansharpening Method

DL方法由于其优良的非线性能力而被广泛应用于图像处理中。网络训练的重点是学习观测值和融合图像之间的转换关系,并在监督下训练所有参数,以获得理想的学习网络。早期,基于DL的泛锐化方法采用简单的三层网络;然而,较浅的网络架构不能提取较深的特征,并且不能实现理想的融合图像。
因此,已经提出了各种深度网络用于遥感图像全色锐化。Xiang等人提出了一种端到端网络,可以通过多尺度特征提取和密集连接的图像重建来更好地保留空间和光谱信息。Yang等提出了PanNet方法,图像重建过程直接接收光谱信息,网络训练样本在高通滤波域进行处理。为了更全面地提取深度特征,Zheng等人使用残差结构构建网络,综合提取深度空间和光谱特征,提高了融合图像的准确性。Wei等人提出的DRCNN以残差结构为主要单元,通过加深网络层数,全面提取PAN和MS图像的深层特征。MSCDNN就是在此基础上,采用多级特征融合和残差结构进行特征提取,然后在提取深层次特征的同时进行更全面的图像重建工作,以减少特征丢失。TFNet使用超分辨率方案解决了泛锐化问题,以在特征域中融合空间和光谱特征。由经典MRA衍生而来的三重对偶网络(TDNet)是基于多尺度卷积和残差结构,通过完整的MRA原理来增强网络深度和提取PAN图像的空间细节。无人监督的网络也可以解决pansharpening问题,如Pan-GAN和PS-GDANet,通过两个鉴别器,空间和光谱,保留空间和光谱信息,分别生成合成图像,保留足够的空间信息和光谱信息丰富。

Attention Mechanism

注意力机制已被证明可以提高模型性能,并广泛用于语义分割,计算机视觉和自然语言处理等领域。在计算机视觉领域,注意机制主要分为空间注意机制、通道注意机制和混合空间通道注意机制。注意机制的作用是将注意力集中在焦点区域,以发现最有用的信息,抑制无用的信息。Minh等人首先将注意力机制与深度神经网络相结合来处理图像分类,从而提高了网络性能。空间transformer网络(STNs)解决了保持输入数据空间变换的问题,并提供了一种新的数据建模方法,可以提高递归神经网络(RNN)的性能。挤压和激励网络(SENets)的提议开创了信道注意力,它利用特征信道上的注意力模型通过学习信道关系和校准信道权重来自适应地选择重要信息以抑制无用信息。近年来,研究人员基于SENet的优异性能提出了高效信道注意力网络(ECANet)和卷积块注意力模块(CBAM)。它们不仅可以任意添加到CNN训练网络中进行端到端训练,而且ECANet和CBAM都是轻量级模型,几乎不会增加计算量。Wang等人引入了图像处理的自我关注,其优点是提高了网络的学习效率,避免了信息丢失,使得将自我关注添加到网络模型中时,可以提高结果的质量并提高速度。Dosovitskiy等人首先提出了一种深度自我注意力网络[视觉transformer(VIT)],以完全取代CNN进行图像处理,VIT证明了CNN的注意力模型的强大性能。VIT获得了优秀的图像处理结果作为一般框架,并取得了理想的结果。

方法

Motivation

由于传感器受到信噪比的限制,遥感卫星的成像系统需要平衡地表图像的空间和光谱分辨率。因此,遥感卫星无法同时提供高光谱分辨率和高空间分辨率的图像。全色锐化的建议解决了上述限制,并生成高分辨率的MS图像。在上述全色锐化方法中,传统的CS方法在特征提取过程中会造成光谱和空间信息的丢失,不能得到高质量的融合图像;传统MRA方法的缺点是在图像融合过程中会产生空间失真。基于模型的方法改进了CS和MRA方法的缺点,能够获得较为理想的融合结果,但图像融合过程过于复杂,计算量较大。深度融合方法在图像处理中有着广泛的应用,具有突出的深度特征提取和图像细节重构能力,最终得到高质量的融合结果图像。我们提出了基于DL的ASIN方法。
如何完整地提取特征并高质量地重建图像是获得理想融合图像的关键环节。基于DL的全色锐化主要包括两种方法:基于超分辨率方法的泛锐化和通过CNN提取空间细节的泛锐化。最终,两种方法都产生了良好的全色锐化图像,但仍然遭受伪影和光谱失真。由于PAN不仅保留了丰富的光谱信息,而且还可能包含光谱信息,因此很难将光谱和空间特征的提取分开。考虑到PAN图像和MS图像之间的混合相关性,我们通过耦合表示分别提取PAN图像和MS图像的特征,并达到了预期的结果。例如,基于渐进耦合网络的用于实时图像排水,以通过耦合表示模块提取多尺度雨型特征和无雨特征。受分离不同层次特征进行特征提取的启发,我们的网络的每个迭代子网络被划分为FES和IRS。我们提出了ACRM,并增加了LKA模块作为FES的骨干,它可以充分提取MS图像和PAN图像的深层光谱和空间特征。跨阶段深度特征的迭代网络的优点用于PAN图像和MS图像的精细特征的分层提取以用于图像重建,并且MS和PAN的特征通过AFM融合以最终获得高分辨率MS图像。

Architecture of Proposed ASIN

由于简单的网络遭受不完整的特征提取和图像融合,往往会失去细节,理想的高分辨率MS图像不能获得。我们通过迭代网络来考虑一个多级全色锐化过程,在每个阶段分别进行特征提取和图像重建,并尝试将每个全色锐化阶段叠加,以减少特征提取和图像重建过程中的特征丢失,如图2所示。在这里插入图片描述
简单的递归子网络会导致网络参数激增,容易过拟合,所以我们通过级与级之间的递归计算,实现各级网络参数的完全共享。
图2示出了MS图像,并且PAN图像被输入到ASIN网络。首先,通过PixelShuffle将输入MS图像上采样到与PAN相同的大小,我们将上采样的MS图像表示为m,并且将上递归层的输出表示为rms。通过级联m和前一层子网络的输出 Mt-1,它被当作下一层子网络的MS输入。然后,在卷积和 深度可分离卷积 之后,输出表示为 f m s f^{ms} fmsin(m,Mt−1)。 f m s f^{ms} fmsin(m,Mt−1)被馈送到递归层GRU以获得GRU的输出,表示为 f m s f^{ms} fmsrecurrent(rms f m s f^{ms} fmsin(m,Mt-1))。输入PAN图像被标记为p,并且在上递归层之后的输出被标记为rpan。每个子网络输入的PAN图像为p,卷积和深度可分离卷积(DSC)的输出表示为 f p a n f^{pan} fpanin(p),然后输入到递归层GRU,输出表示为 f p a n f^{pan} fpanrecurrent(rpan f p a n f^{pan} fpanin(p))。
算法流程图如下:在这里插入图片描述

GRU在每一级中的输出结果 f m s f^{ms} fmsrecurrent f p a n f^{pan} fpanrecurrent被输入到FES,如图3(b)所示。FES主要由LKA 模块和作为特征提取主干的串联ACRM组成。输入 f m s f^{ms} fmsrecurrent f p a n f^{pan} fpanrecurrent首先通过LKA,以在ACRM的几个级联之后生成指示不同点的重要性的注意图,以分别提取空间和光谱信息,并输出细化的光谱特征 f m f^{m} fmt和空间特征 f p f^{p} fpt。然后,将去卷积和卷积应用于两个路径的特征图以避免分辨率失真并输入到IRS。 f m f^{m} fmt f p f^{p} fpt共同进入AFM ,其通过加法合并两个特征图。
在这里插入图片描述
IRS由AFM、标准卷积、校正线性单元(ReLU)激活函数和Sigmoid激活函数组成,定义如下:在这里插入图片描述
其中m是重建后的输出结果图, f m f^{m} fmt是ACRM输出的频谱特征, f p f^p fpt是ACRM输出的空间特征,FIRS是IRS,并且Fre是重建层,包括AFM、标准卷积、ReLU激活函数和Sigmoid激活函数。ReLU和sigmoid激活函数由下式给出:在这里插入图片描述
由FES输出的光谱特征 f m f^m fmt和空间特征 f p f^p fpt都被输入到图像IRS以用于图像重建。最后经过多级迭代得到理想的融合结果mt

Important Components

1) Recurrent Layer: 在每个子网络中引入递归层解决了RNN在训练过程中梯度消失的问题,而GRU和长短期记忆(LSTM)可以避免上述问题。
GRU和LSTM在网络中显示了类似的实验结果。LSTM有一个遗忘门、一个更新门和一个输出门,而GRU只包含一个更新门和一个重置门。GRU比LSTM少了一个门,所以它的参数更少,更容易收敛。
GRU的输入与RNN的输入相同。首先,将当前阶段的输入与从前一阶段传递下来的包含前一阶段的相关信息的隐藏状态组合。GRU将获得当前阶段的输出并传递下一阶段的隐藏状态。这一级的输入和前一级的隐藏状态都 需要通过sigmoid函数将数据转换为[0-1]范围内的值,从而充当门控信号。第一个Sigmoid函数用作复位门,并且第二个Sigmoid函数用作更新门。使用复位门控获得的复位数据与该级的输入拼接,然后,通过tanh激活函数将数据改变到[-1,1]的范围,以最终获得传递到下一级的隐藏状态。最后,将隐藏状态传递到下一阶段。门控的范围是[0,1],其中1表示存储的数据是完整的,并且0表示更多的存储的数据被遗忘。
2) Large Kernel Attention Module: LKA 模块被添加到每个FES。LKA具有通道和空间适应性,以及强大的远程依赖构建能力,使特征提取更加完整。具体结构如图3(c)所示。
在这里插入图片描述
LKA是K × K的大核卷积,分为三部分:通道卷积(CC)、深度扩张卷积(DDC)和深度卷积(DC),通过它们生成注意力图并将其与LKA的输入相乘以建立远程依赖性。LKA定义为:

其中f表示具有输入通道编号C和空间维度H × W的特征。fatt表示生成C × H × W的特征注意力图。⊗表示元素的乘积。分析(1)和(2)的定义,FDC的卷积核的大小是(2d-1)×(2d-1),FDDC的卷积核的大小是(K/d)×(K/d),d是膨胀,FCC的卷积核的大小是1 * 1。最终的LKA能够捕获远程关系,同时在空间和信道维度上是自适应的。
3) Asymmetric Coupled Representation Module: 本文提出的耦合表示模块是不对称的,ACRM由特征提取块(FEB)和耦合表示块(CRB)组成,如图3(a)所示。在这里插入图片描述
在FEB中,首先,从LKA输出的MS和PAN注意力特征通过深度可分离卷积接收,其提供类似的性能,同时与标准卷积相比更高效且计算成本更低。然后,使用多个级联的信道关注块(CAB)来向特征图的不同信道分配不同权重,以集中于重要信息。最后,通过反卷积输出光谱和空间特征,这可以提高分辨率。在FEB模块中,PAN图像的特征提取过程与MS图像的特征提取过程不对称。PAN图像通过身份映射提取空间细节信息,减少了细节信息的丢失和参数的数量。定义如下:在这里插入图片描述
MS图像光谱特征的粗略表示是 F m F^m Fmt,PAN图像空间特征的粗略表示是 F p F^p Fpt,Ftc是指去卷积,Fcab是指通道注意块,Fdsc是指DSC,并且Fim是指identity映射。
CRB是一个学习耦合细化的相关性的过程。首先, F m F^m Fmt F p F^p Fpt被输入到空间注意力层中以生成MS注意力图和PAN注意力图,MS注意力图和PAN注意力图由S形函数归一化以生成MS注意力掩模AMm和PAN注意力掩模AMp。具体公式如下:在这里插入图片描述
通过这两种耦合表示,细化了光谱特征 f m f^m fmt和空间特征 f m f^m fmt,提高了特征提取的完备性。
4) Attention Fusion Module: 图4的下部显示了AFM的详细结构。
在这里插入图片描述
AFM由两个通道的注意机制(CAB),并分配不同的权重,以不同的通道,使光谱特征和空间特征,可以充分捕捉和噪声可以减少。CAB是一个输入大小为C × H × W的特征图,通过全局平均池化压缩成一组C × 1 × 1的注意力向量,可以捕捉全局信息。C/16的特征向量是通过两个全连接层对C进行降维而获得的,并且使用ReLU激活函数将特征向量维度化为C。最后,通过Sigmoid激活函数执行非线性变换以获得表示输入特征图通道的重要性的权重集合,将其乘以输入特征图以输出去除噪声的特征图。双CAB对应于光谱特征 f m f^m fmt和空间特征 f p f^p fpt,并且最后,通过加法合并两个特征图。
IRS由AFM、标准卷积、ReLU激活函数和sigmoid激活函数组成,定义如下:在这里插入图片描述
M为重建后的输出结果图, f m f^m fmt为ACRM输出的光谱特征, f p f^p fpt为ACRM输出的空间特征,FIRS是IRS,包括AFM、标准卷积、ReLU激活函数和sigmoid激活函数。

Loss Function

为了使ASIN的合成图像近似地面实况图像,我们选择Charbonnier罚损失函数(近似L1损失函数)。L1和L~2·损失函数易于产生感知上平滑的效果,而Charbonnier损失函数将能够适应小误差并提供更快的训练收敛。我们的损失函数定义如下:在这里插入图片描述
LHRMS(x,y)表示在每个阶段输出的结果图像m与地面实况(GT)图像之间的损失计算,其中x表示m,y表示GT图像。LMS(x,y)表示在每个迭代阶段的FES之后的光谱特征输出图像与原始输入MS图像之间的损失特征,X表示由FES输出的光谱特征图像,并且y表示原始输入MS图像。LPN(x,y)表示在FES的每个阶段之后的空间特征输出图像与原始输入PAN图像之间的损失特征,X表示由FES输出的空间特征图像,并且y表示原始输入PAN图像。其中λ设为0.2,E设为10−3

猜你喜欢

转载自blog.csdn.net/weixin_43690932/article/details/129931375