图像检索的注意力感知广义平均池化

paper题目：ATTENTION-AWARE GENERALIZED MEAN POOLING FOR IMAGE RETRIEVAL

paper是吉联科技集团发表在arxiv 2018的工作

paper地址：链接

ABSTRACT

已经表明，由卷积神经网络 (CNN) 提取的图像描述符在检索问题上取得了显著的效果。本文将注意力机制应用于CNN，旨在增强与输入图像中重要关键点相对应的更多相关特征。生成的注意力感知特征然后通过广义均值 (GeM) 池化聚合，然后进行归一化以产生紧凑的全局描述符，该描述符可以通过点积有效地与其他图像描述符进行比较。在新的具有挑战性的 ROxford5k 和 RParis6k 检索基准上对本文提出的方法与最先进的方法进行了广泛的比较。结果表明与以前的工作相比有显著改进。特别是，本文的注意力感知 GeM (AGeM) 描述符在“Hard”评估协议下优于 ROxford5k 上的最新方法。

关键词——卷积神经网络、图像检索、注意力感知广义平均池化

1. INTRODUCTION

在计算机视觉中，实例级图像检索的任务是在给定查询图像的情况下，检索包含与查询相同对象的大型数据库中的所有图像。传统上，性能最佳的方法依赖于局部不变特征，如SIFT和基于这些局部特征的聚合策略，如BoW、VLAD或FV。结果表示通常被有效地索引和单独匹配，然后是重新排序阶段。

最近，基于卷积神经网络（CNN）的方法发展迅速。作为第一次尝试，一些工作提出使用由全连接层提取的特征，并展示了令人满意的性能。然而，仍然通过非基于 CNN 的方法获得了最先进的结果，并提出了卷积层作为替代方案。这些特征提取器具有的优点是可以从任何大小和纵横比的输入图像中有效地生成固定长度的紧凑表示。因此，已经撰写了一系列关于构建竞争图像表示的各种策略的论文，例如 SPoC、CroW、MAC或R-MAC描述符。这些方法与适当的后处理技术相结合时，首次产生了一个与基于局部特征的传统方法竞争或优于传统方法的系统。

然而，上述方法的一个主要缺点是图像描述符是使用为分类任务训练的现成模型直接提取的。虽然效率很高，但很明显，由于缺乏学习，改进收益有限。 Babenko 等人提出了第一个用于图像检索的微调方法，该方法在一组更适合检索任务的新landmark图像上使用分类损失。后来，Gordo 等人认为，被优化的相似性度量应该与最终任务中使用的相似性度量一致。基于 R-MAC 管道，深度图像检索 (DIR) 网络使用排名损失在干净版本的 Babenko 数据集上进行端到端训练。同时，Radenovi´c 等人的工作通过利用运动结构 (SfM) 管道消除了手动收集/清理用于训练的大规模数据集的需要。此外，引入了一种新颖的广义均值 (GeM) 池化操作，与之前的工作相比获得了更多的性能提升。

受 Wang 等人最近的工作的启发，将注意力模块插入 CNN 以提高分类任务的性能，通过考虑双分支网络来整合（软）注意力机制：与上述相同的主分支工作，由最终池化层之前的基础架构和一个注意力分支组成，该注意力分支由以前馈方式应用于由基础架构中的各种先前块生成的特征图的附加层组成。然后，两个分支的输出通过注意力残差学习机制组合在一起，如 [15] 中所示，以生成注意力感知特征，这些特征通过 GeM 操作聚合以产生紧凑的图像表示，称为注意力感知 GeM（AGeM ) 描述符。额外的注意力分支很容易实现，可以通过反向传播进行训练，并且只增加了很小的计算开销。

2. PROPOSED METHOD

2.1. Network and Pooling

在本文的实验中，选择ResNet-101作为CNN架构。给定一个输入图像，将最后一个卷积层产生的特征图作为输出，其形式为 $\mathcal{X} \in \mathbf{R}^{W \times H \times K}$ ，其中 $K$ 表示通道的数量。总是假设应用ReLU激活。用 $\mathcal{X}_{k} \in \mathbf{R}^{W \times H}$ 表示 $\mathcal{X}$ 的第 $k$ 个特征图，应用池化操作产生一个代表 $\mathcal{X}_{k}$ 的数字 $F_{k}$ ，这样输入图像就可以用向量 $\left[F_{1}, \ldots, F_{K}\right]^{\mathrm{T}}$ 表示。然后，这个向量被 $\ell^{2}$ 归一化，以便具有单位规范。

两种最简单的池化方法是分别对应于SPoC和MAC描述符的平均池化操作和最大池化操作，它们已经在标准基准测试中取得了具有竞争力的良好结果。为了进一步提高性能，在[12]中使用广义平均（GeM）池作为替代，其中相应的GeM描述符由下式给出
$\left[F_{1}^{(\mathrm{GeM})}, \ldots, F_{K}^{(\mathrm{GeM})}\right]^{\mathrm{T}}, \quad F_{k}^{(\mathrm{GeM})}=\left(\frac{1}{\left|\mathcal{X}_{k}\right|} \sum_{x \in \mathcal{X}_{k}} x^{p_{k}}\right)^{\frac{1}{p_{k}}}\quad(1)$
它通过采用 $p_{k}=1$ 和 $p_{k} \rightarrow \infty$ 来概括SPoC和MAC。更重要的是，GeM pooling是一种可微操作，因此可以以端到端的方式训练整个网络。

在 (1) 中，每个特征图 $\mathcal{X}_{k}$ 都有不同的池化参数 $p_{k}$ 。但是，也可以对所有特征图使用共享参数 $p$ 。最后，对于 ResNet-101，有 $K = 2048$ ，因此上述每个描述符都是 2048-D 紧凑图像表示。

2.2. Attention-Aware GeM

现在描述注意力感知 GeM (AGeM) 描述符的构建。给定一个输入图像，ResNet-101 架构的第一个块由一个 $\times 7$ 卷积和一个 $\times 3$ 最大池化组成，以产生通道大小为 64 的特征激活输出。然后还有四个残差块，表示为 $\left\{B_{2}, B_{3}, B_{4}, B_{5}\right\}$ ， $\times 1$ 和 $\times 3$ 卷积层在每个块内产生相同大小的特征图。对于 $\in\{2,3,4,5\}$ ，用 $B_{i, j}$ 表示 $B_{i}$ 的第 $j$ 个残差单元， $\mathcal{X}_{i, j}$ 是 $B_{i, j}$ 最后一层产生的特征图。请注意，对于 $i = 2$ （分别为 3、4 和 5）， $\mathcal{X}_{i, j}$ 的通道大小为 256（分别为 512、1024 和 2048）。

本文的网络架构由两个分支组成。首先，在最终池化层之前有一个与 GeM 完全相同的主分支，它获取输入图像并从 ResNet-101 的 $B_{5,3}$ 生成特征图 $\mathcal{X}_{5,3}$ 。对于注意力分支，添加了三个注意力单元，分别表示为 Att1、Att2_1 和 Att2_2，它们应用于由 $B_{4,23}, B_{5,1}$ 和 $B_{5,2}$ 生成的特征图 $\mathcal{X}_{4,23}$ , $\mathcal{X}_{5,1}$ 和 $\mathcal{X}_{5,2}$ 。 Att1 单元由内核大小分别为 $\times 3,3 \times 3,1 \times 1$ 和 $\times 1$ 的四个卷积层组成，第一层的步长为 2，其余的步长为 1。对于 Att1 的四层，输出通道大小分别为 1024、512、512 和 2048，此外，每个卷积层之后是BN和ReLU激活，除了最后一层由sigmoid函数。相比之下，Att2_1 和 Att2_2 都只包含一个卷积层，内核大小为 $\times 1$ ，步长为 1，输出通道大小与输入通道大小相同，然后是 sigmoid 激活。

在前馈过程中，Att1 应用于 $\mathcal{X}_{4,23}$ 生成注意力图 $\mathcal{A}_{4,23}$ ，然后通过 Hadamard 乘积与 $\mathcal{X}_{5,1}$ 组合（表示为 $\otimes$ ）。同样，Att2_1 应用于 $\mathcal{A}_{4,23} \otimes \mathcal{X}_{5,1}$ 产生 $\mathcal{A}_{5,1}$ ，Att2_2 应用于 $\mathcal{A}_{5,1} \otimes \mathcal{X}_{5,2}$ 产生 $\mathcal{A}_{5,2}$ 作为注意力分支的输出。网络的最终输出应用 [15] 中的注意力残差学习并生成由 $\mathcal{X}=\mathcal{X}_{5,3}+\mathcal{A}_{5,2} \otimes \mathcal{X}_{5,3}$ 给出的特征图 $\mathcal{X}$ ，然后是 GeM 池化和 $\ell^{2}$ 归一化，形成紧凑的 2048- D 向量作为输入图像的 AGeM 描述符。整体架构如图 1 所示。

图 1. 提出的方法的一般概述。

2.3. Loss Function and Whitening

在 Babenko 等人提出的第一个微调方法中。 [5]，在 ImageNet 数据集上预训练的模型使用分类损失在一组外部标记的landmark图像上重新训练。后来，Gordo等人表明，通过使用三流三元组损失来学习非常适合检索任务的图像表示，可以进一步改进结果。与此相关的是，Radenovi´c 等人使用了双流对比损失。
$\begin{cases}\frac{1}{2}\|F(i)-F(j)\|^{2}, & Y(i, j)=1 \\ \frac{1}{2}(\max \{0, \tau-\|F(i)-F(j)\|\})^{2}, & Y(i, j)=0\end{cases}$
其中每个训练输入由一对图像 $(i, j)$ 和标签 $\in\{0,1\}$ 组成，如果 $i$ 和 $j$ 匹配，则 $Y (i, j) = 1$ ，否则为 0，并且 $\tau$ 是边距超参数。

参考文献

[15] F. Wang, M. Jiang, C. Qian, S. Y ang, C. Li, H. Zhang, X. Wang, and X. Tang, “Residual attention network for image classification,” in CVPR, 2017.

[12] F. Radenovi´c, G. Tolias, and O. Chum, “Fine-tuning cnn image retrieval with no human annotation,” in TPAMI, 2018.

(arxiv-2018)图像检索的注意力感知广义平均池化