图像配准参考论文笔记(1)

文章:

利用深度卷积特征进行多时相遥感图像配准

《Multi-Temporal Remote Sensing Image Registration Using Deep Convolutional Feature》

code:https://download.csdn.net/download/qq_33431061/10727995

一.摘要

       多时相遥感图像的配准已广泛应用于军事和民用领域,例如地面目标识别,城市发展评估和地理变化评估。地面变化对特征点检测的质量和数量有很大挑战,这是基于特征的配准算法的常见困难。在严重的外观变化下,检测到的特征点可能包含大部分异常值,而正常的可能不充分且分布不均匀。本文提出了一种基于卷积神经网络(CNN)特征的多时相遥感图像配准方法,它有两个关键的贡献:(i)我们使用CNN生成鲁棒的多尺度特征描述符;(ii)我们设计逐渐增加的特征点,以提高特征点配准的稳健性。在多时相卫星图像数据集和多时间无人驾驶飞行器图像数据集上执行关于特征匹配和图像配准的广泛实验。在大多数情况下,我们的方法优于四种最先进的方法。

二.介绍

        图像配准是在图像之间找到最佳对齐的过程。这是一项基本任务,以便能够集成和比较从不同视点,不同时间或不同传感器捕获的图像。多时相遥感图像的登记具有已广泛应用于军事和民用领域,如地面目标识别,城市发展评估,地理变化评估等。

        图像配准的方法可以分为两大类:(i)基于区域的方法和(ii)基于特征的方法。基于特征的方法不是直接使用图像相位频率(基于区域的方法),而是使用表示高级信息的特征描述符,因此在期望外观变化的多时相分析中更为可取。由于我们主要致力于在这项工作中开发基于特征的方法,因此我们在(ii)中介绍和讨论当前的方法。大多数基于特征的方法依赖于SIFT或其改进版本来检测特征点,因为它具有突出的尺度和旋转不变性。然而,在存在一定程度的外观差异的多时间或多传感器图像配准中,SIFT检测到的特征点可能包含严重的异常值。在更糟糕的情况下,SIFT无法检测到足够数量的特征点。这些问题限制了图像配准的应用。

       在这项工作中,我们提出了一种新颖的非刚性图像配准方法。我们的两项重要贡献可归纳如下。(i)我们使用来自预训练的VGG 网络层生成多尺度特征描述符。针对卷积神经网络在图像配准中的有效利用,我们的特点是利用高级卷积信息,同时保留了一些定位能力。(ii)我们设计了一个按照倾向特征的点集匹配。我们设计了逐渐增加的特征点选择,而不是使用正常和异常值的固定区分。在配准的早期阶段,粗略转换由最可靠的特征点快速确定。之后,通过增加特征点的数量来优化配准细节,同时限制不匹配的特征点。通过卷积特征和几何结构信息来评估逐点对应。

       将我们的特征检测方法与SIFT进行比较。我们的图像配准方法在多时相卫星图像和无人机图像上进行了测试,并与四种最先进的工作进行了比较。我们通过测量特征预匹配的精度来比较特征检测方法。通过测量相应像素之间的距离来评估配准的性能。

       本文的其余部分安排如下。 第2节回顾了有关基于特征配准问题的经典和前沿研究。第3节介绍了我们工作的详细方法。第4节演示我们的实验。结论见第5节。

三.相关工作

      基于特征的图像配准方法通常包括四个阶段。
1)使用诸如SIFT之类的特征描述符在一对图像(即感测和参考图像)中检测足够数量的特征点。
2)通过在特征空间中找到最近邻居来估计初步的逐点对应关系,我们称之为特征预匹配。
3)非刚性点集注册,其搜索最佳变换参数。(达到以点代面的效果)
4)图像变换,其根据恢复的变换重新采样感测的图像。

      之后介绍近年来各种基于SIFT引入的新技术,如RANSAC、PR-GLS等。这些基于SIFT的方法在严重的外观变化下有特征点不足和高异常值的问题。

      在点集配准阶段也有不同的解决方案。经典方法是通过概率优化,用高斯混合模型(GMM)测量对准程度。基于GMM的一种代表性方法是Coherent Point Drift(CPD),其在每个感测的特征点上放置高斯分布质心,然后在期望最大化框架下迭代地更新点位置。

      在过去几年中,已经研究了卷积神经网络(CNN)来处理遥感数据。 Zhang et al 开发了一套有效的基于CNN的方法来提取特征,对场景进行分类并检测特定的地面目标。许多作品使用CNN来学习特征描述。MatchNet提供了一种统一的方法来学习特征表示并学习特征比较,从而提高计算效率。它由一个深度卷积网络组成,该网络从块中提取特征,并由三个完全连接的层组成的网络计算所提取特征之间的相似性。为了克服标签数据的不足,Du et al 提出了一个有效融合数据代表性和信息性的通用主动学习框架和一个称为堆叠卷积去噪自动编码器的无监督深度网络,它可以将图像映射到没有任何标签信息的分层表示。Žbontar和LeCun 训练卷积神经网络来预测两个图像块匹配的程度,并用它来计算立体匹配成本。这些方法使用相对较大的图像块并专注于从图像块中计算某些度量,而不需要本地化。在我们的方法中,我们尝试利用高级卷积信息,同时保留一些本地化功能。

       目前已经开发了几种方法来进行类别级别配准。这些工作试图训练特定的网络进行特征提取和配准。 Kanazawa等构建了一个连体网络来预测变换并在 fine-grained 数据集上进行训练。Rocco et al 提出了一种基于三个主要组件的架构,模仿了特征提取,匹配和模型参数估计的标准步骤,每个组件都是可训练的网络。在我们提出的方法中,CNN仅用于特征提取,对于点集配准,我们在传统框架上构建了一种新颖的方法。这种选择的原因是神经网络只能产生有限的,恒定数量的变换参数,因此不能纠正复杂的失真并且不适合于遥感配准。

四.方法

A.解决方案框架

      该算法的目的是变换感测图像I_Y,使其与参考图像I_X对齐。 我们从参考图像中检测特征点集X,并从感测到的图像中检测特征点集Y. 接下来我们使用基于期望最大化(EM)的过程来获得Y的变换位置,即Z.Y和Z,以求解用于图像变换的thin plate spline(TPS)插值。 我们方法的主要过程如图1所示。


在整篇论文中,我们使用以下符号:
X_{N\times 2}Y_{M\times 2} - 分别从参考图像和感测图像中提取的特征点集。
Z - 转换Y的位置。
N,M - 分别为XY的点数。
X_{n}Y_{m}- 指向点集X中索引n处的点; 指向点集Y中的索引m

B.特征描述和预匹配

(1)生成特征描述符

        我们的卷积特征描述符是使用预训练的VGG-16网络中某些层的输出构建的,这是一个对1000个类别进行分类的图像分类网络。 由于其一些理想的特性,VGG被选中用于此任务:(i)其在图像分类方面的卓越性能证明了其分辨能力。 (ii)结构简洁,仅通过堆叠卷积层,池化层和全连接层的构建,而没有采用分支或捷径连接来加强梯度流。 这种设计使得该网络适用于不同的目的。 (iii)它非常深,受过大量多样化图像数据的训练。 因此,其卷积滤波器可以通用并进行非常好的推广。 VGG经常用于许多计算机视觉解决方案中的特征提取,例如fastRCNN物体探测器和超分辨率生成对抗网络(SRGAN)。

       基于卷积滤波器的可视化和使用单层输出作为特征的三重误差实验,已经选择了几个网络层来构建我们的特征描述符。 我们主要考虑卷积滤波器的普遍性和选择层时的感受域大小。 神经网络中的卷积层包含各种小滤波器,并且每个滤波器在输入图像中搜索特定模式。通过在使用随机值生成的输入图像上应用梯度上升,可视化VGG-16的每个卷积层中的滤波器。 我们选择使用在Imagenet数据集上训练的VGG网络,以便我们的特征描述符通用。图3显示了代表性的可视化滤波器。 pool5层不用于特征,因为它受特定分类对象的影响,因此不适合检测一般特征。

       由于我们只使用卷积层来提取特征,因此输入图像可以是任何大小,只要高度和宽度是32的倍数。但是,输入图像的大小可以有两个方面的影响:(i)每个描述符的感知域将不同并影响性能。(ii)较大的输入图像需要更多的计算。我们将输入图像的大小调整为224×224,然后通过网络传播,以便具有适当大小的感知字段和减少计算。三层的输出用于构建我们的特征:pool3,pool4和block5conv1之后添加最大池化层,即pool5_1。 这些图层搜索一组通用模式并生成特征响应值,这些值可以很好地覆盖不同大小的感知字段。

      如图2所示,VGG-16包含5个卷积计算块,每个块具有2-3个卷积层和最大池化层(VGGNet中全部使用了3*3的卷积核和2*2的池化核)。 我们在输入图像上划分28×28网格划分我们的图像块,每个块对应于pool3输出中的256-d矢量,每8×8生成一个特征描述符。 每个块的中心被视为特征点。 256-d向量被定义为pool3特征描述符。 pool3层输出直接形成我们的pool3特征映射F1,其大小为28×28×256。pool4层输出的大小为14×14×512,处理方式略有不同。 在每个16×16区域中,我们生成一个pool4描述符,因此它由4个特征点共享。 如公式1所示,使用Kronecker乘积(由\otimes表示)获取pool4特征图F2:F_2 =O_{pool4} \otimes I_{2\times 2\times 1}

       [ 注释:VGGNET输入224x224x3的RGB图像,第一个卷积层之前pooling一圈0,有64个3x3的卷积核,之后结果224x224x64,之后进入第一个池化层,结果112x112x64;同理,卷积核个数依次变成128,256,512;经过13个卷积层,5个池化层;然后Flatten(),将数据拉平成向量,变成一维512*7*7=25088;接着是三个全连接层,全连接层有4096,4096,1000个神经元,最后1000是分类数,这里4096只是个经验值,其他数也可以,只要不要小于要预测的类别数。如果你想用VGG16 给自己的数据作分类任务,这里第三层就需要改成你预测的类别数。]

       [ 图4没看懂,运用了克罗内克乘积找特征点 ]

       在获取F1,F2和F3之后,将特征图标准化为单位方差,F_i\leftarrow \frac{F_i}{\sigma (F_i)},i=1,2,3,其中σ(·)计算矩阵中元素的标准偏差。点x的pool3,pool4和pool5_1的特征描述符分别由D1(x),D2(x)和D3(x)表示。[ ? 怎么算的 pool的feature map是F,F运用克罗内克积求出,是一个矩阵 (如何用F表示特征点?);pool的结果是一个矩阵;D F pool结果的关系?特征点是方块中心,点的特征描述D是什么意思? ] [ 个人理解: F是点集,D是每个点 ]

(2)特征预匹配

      首先定义我们的特征的距离度量。两个特征点x和y之间的特征距离是三个距离值的加权和:

        [ d1前根号二,因为pool3是256维,pool4 5是512维 ]

      每个分量距离值是各个特征描述符之间的欧几里德距离:

      

      特征点x、y匹配的条件:

      1)d(x; y)是所有d(·; y)中最小的。
      2)不存在d(z; y)使得d(z; y)<θ·d(x; y)。θ是大于1的参数,称为匹配阈值。
      这种匹配方法不保证双射。

C.动态内点选择

       我们的特征点是在方形图像块的中心生成的。 在变形的情况下,相应的特征点可能使其图像块部分或完全重叠。 因此,为了实现更准确的配准,具有更大重叠比的特征点应该具有更好的对准度,其中部分重叠的图像块应该在它们的中心之间具有小的距离。 使用我们的动态内点选择确定对齐程度。

      在使用EM算法迭代求解Z(每次迭代中Y的变换位置)时,我们在每k次迭代中更新内点的选择。 选择作为内点的点引导点位置的移动,而异常值则相干地移动。 在特征预匹配阶段,使用低阈值θ0选择大量特征点以滤除不相关的点。 然后我们指定一个大的起始阈值θ',只有正确的内点(具有重叠块的特征点)才满足。在剩余的配准过程中,在每k次迭代中将阈值θ减去步长δ,允许更多的特征点影响变换。 这使得强匹配的特征点能够确定整体变换,而其他特征点可以优化配准精度。

      内部选择产生M×N先验概率矩阵Pr,然后由我们的基于高斯混合模型(GMM)的变换求解模型获取。 Pr [m;n]是Xn和Ym相对应的推定概率(putative probability)。 假设Xn对应于Ym,我们得到一个大的推定概率Pr[m;n]。并且大的概率将进一步导致Ym的显着变换。

      使用卷积特征和几何结构信息确定推定概率。通过以下过程获得先验概率矩阵Pr:

      (1)准备卷积特征代价矩阵[ M*N ]

         [ 6 ]

       条件1是当Ym和Xn是阈值θ下的有效匹配时。d(·;·)是先前定义的卷积特征的距离度量。 d(max;θ)是阈值θ下所有匹配特征点对的最大距离。

      (2)使用形状上下文计算几何结构代价矩阵C{geo},这是一个基于直方图的描述符,用于描述点的邻域结构。 描述符将轮廓点放置在极坐标系的中心,并记录落在弧形域中的点数。 通过进行χ2检验获得C{geo}:h{y;m} h{x;n}是ym;xn周围的内点个数。

        [ 7 ]

      (3)计算综合代价矩阵C,因为C{conv;θ}和C{geo}都在0-1之间,利用Hadamard乘积(*),C=C{conv;θ}*C{geo}。[ 8 ]

      (4)应用Jonker-Volgenant算法来解决代价矩阵C上的线性分配。分配的点对被认为对应的。最后,计算先验概率矩阵:

         [ 9 ],\varepsilon是一个0-1的参数值,根据我们对内部配对点指定。 先验概率矩阵需要归一化:,阈值的步长由下边这个公式决定:

D.主要流程

      我们将点集Y视为高斯混合模型(GMM)质心。 GMM概率密度函数定义为:(左);gm(x)是正态分布密度函数:(右)

           

      该模型对混合模型中的每个单个高斯质心使用方差σ2。 添加一个额外的均匀分布项1/N以考虑加权参数w,0 <w <1。然后,我们使用期望最大化(EM)算法来找到最优变换参数(W;σ2;w)。这种方法的目的是最大化似然函数(左),或等效地最小化负对数似然函数:

          

      (左)由于存在不可观察的变量m,我们无法直接计算梯度。(右)P{old;(m|xn)}表示使用来自最后一次迭代的参数计算的后验概率项。扩展此等式并省略派生的冗余项后,该等式可以重写为:

      

      其中  表示ym的变换位置。非刚性变换定义为:Z=Y+GW [ 16 ],其中G是由高斯径向基函数(GRBF)生成的矩阵,W包含要学习的变换参数。

       [ 17 ]

     之后我们得到了一个基于运动相干理论(MCT)的正则化项:

      

      其中tr(·)表示跟踪操作。 EM算法迭代地计算期望和最小化梯度直到收敛。 E Step:使用来自最后一次迭代的参数计算后验概率矩阵Po。M Step:求解导数和更新参数。

      

E.细节

•参数设置
        在特征预匹配阶段,通过选择最可靠的128对特征点自动确定阈值θ0。 类似地,通过选择最可靠的64对特征点来确定θ'。 在内部选择阶段,步长δ由δ=(θ'-θ0)/10; 置信参数\varepsilon设置为0.5; 形状上下文在径向上使用5个bin,在切线方向上使用12个bin。 在点集登记阶段,退火常数α设定为0.95; 高斯径向基方差β设定为2。

•初始化
        在特征提取之前,输入图像的大小调整为224×224。 异常值平衡权重w初始化为0.5,将λ初始化为2,将变换系数W初始化为全零的矩阵。GMM方差σ2使用以下方式初始化:

        

•计算代价
        单个224×224图像的特征计算需要13.45B FLOPs。在2.9GHz双核Intel i5 CPU上,需要1.2秒。在求解矩阵PO时,我们得到最差成本时间O(N^3)。权重矩阵W具有N×N个条目,每个条目需要N次迭代来计算,因此,复杂度为O(N^3)。总的来说,点集注册具有O(N^3)的复杂度。

四.实验

        在多时相卫星图像数据集和多时相无人机图像数据集上测试。将我们的特征描述符与SIFT进行比较,我们的图像配准方法针对四种基于SIFT的最先进方法进行了测试:CPD,GLMDTPS,GL-CATE和PRGLS。

(1)特征预匹配精度测试
        特征预匹配是图像配准的重要中间阶段,我们将卷积特征与SIFT进行比较。在每对测试图像中,我们使用两种方法提取和预匹配特征点。然后,使用最可靠的95-105对匹配,并通过Precision=TP/(TP+FP)测量精度。 通过控制阈值来选择成对的匹配点。

        算法:使用深度卷积特征和动态内点选择(DeepIRDI)进行图像配准

INPUT: Ix,Iy
1.初始化参数: θ0, θ', δ, k, β, epsilon, w, σ^2, W, λ
2.预匹配和根据θ0从Ix,Iy中选择卷积特征点集X和Y
3.根据公式17构造高斯核
4.初始化θ=θ'
5.DO
    迭代k次:
        根据公式6计算卷积特征代价矩阵C{conv;θ}
        根据公式7计算几何结构代价矩阵C{geo}
        根据公式8计算代价矩阵C
        采用Jonker-Volgenant算法求解成本矩阵C的线性分配
        根据公式9计算先验概率矩阵
        更新θ=θ-δ
    END

    E-Step:
        根据公式19计算后验概率矩阵Po
    END

    M-Step:
        根据公式20更新W
        根据公式16计算Z
        根据公式21,22更新w, σ^2
    END
  WHILE 公式15不收敛
6.使用thin plate spline计算变换图像Iz。
OUTPUT:  Iz

(2)图像配准准确性测试
        使用通过不同方法生成的配准图像进行这种类型的实验。在每对遥感和配准的图像中,测试者识别15对指定的标记点。测试仪记录图像上的标点的位置,并根据每对标点之间的距离测量误差。误差度量是均方根距离(RMSD),平均绝对距离(MAD),距离中值(MED)和距离标准偏差(STD)。

(3)数据集
        上述两种类型的实验均在两个数据集上进行:(i)从Google Earth获得的多时相卫星图像数据集; (ii)使用具有CMOS相机的小型无人机(DJI Phantom 4 Pro)捕获的多时相无人机图像数据集; 每个数据集包括15对图像。图像的大小范围为600×400到1566×874。我们的数据集中的图像对包含显著的外观变化和轻微的错位,旋转或视点变化。

B.特征预测精度测试的结果

       略

C.图像配准准确性测试的结果

        略

五.结论
        我们提出了一种基于特征的图像配准方法,它有两个关键的贡献:(i)我们使用预训练的VGG网络构建基于卷积神经网络的特征提取方法。针对卷积神经网络在图像配准中的有效利用,我们的特征描述符利用高级卷积信息,同时保留了一些定位能力。 (ii)我们提出了一个特征点配准程序,该程序使用逐渐扩大的内部选择,以便在配准的早期阶段通过最可靠的特征点快速确定粗略变换。之后,通过增加特征点的数量来优化注册细节,同时限制不匹配。与SIFT相比,在两个多时相数据集上进行的特征预匹配测试显示出相当大的准确度提升,图像配准测试显示我们的方法在大多数情况下优于四种最先进的方法。

猜你喜欢

转载自blog.csdn.net/qq_33431061/article/details/83147456