Extracting Class Activation Maps from Non-Discriminative Features as well

看之前需要了解CAM

摘要

目的：
从分类模型中提取类激活图(CAM)通常会导致前景对象的覆盖率较低，即只识别出可区分的区域(例如“羊”的“头”)，而其余区域(例如“羊”的“腿”)被错误地作为背景。背后的关键是分类器的权重(用于计算CAM)只捕获对象的鉴别特征。

本文方法：
显式地捕获非判别特征，从而将CAM扩展到覆盖整个对象。

具体来说，省略了分类模型的最后一个池化层，并对对象类的所有局部特征进行聚类，其中“局部”表示“在空间像素位置”。将结果K聚类中心称为局部原型——表示局部语义，如“羊”的“头”、“腿”和“身体”。
给定一个类的新图像，将其未合并的特征与每个原型进行比较，得出K个相似度矩阵，然后将它们聚合成热图(即我们的CAM)。
因此，CAM无差别地捕捉到了类的所有局部特征。

代码链接
效果展示
在这里插入图片描述

方法

本文方法可融入于上面方法当中

LPCAM Pipeline

在这里插入图片描述

使用标准ResNet50作为多标签分类模型的网络骨干(即特征编码器)来提取特征
在聚类和上下文的局部原型之前，我们需要前景和背景的粗略位置信息。我们使用传统的CAM来实现这一点。在给定特征f(x)和FC层中对应的分类器权重wn的情况下，我们为每个单独的类n提取它，如下所示:

聚类
为每个单独的类执行聚类。给定一类n的图像样本x，我们基于CAM将特征块f(x)在空间上划分为f和B两个集合
在这里插入图片描述
对F和B进行K-均值聚类，以获得它们各自的K个类中心，其中K是一个超参数。我们将前景簇中心记为F = {F1，···，FK}，背景簇中心记为B = {B1，···，BK}。

扫描二维码关注公众号，回复： 14731676 查看本文章

Selecting Prototypes

传统CAM的掩码不准确或不完整，例如，背景特征可能被分组为f。为了解决这个问题，我们需要一个“评估者”来检查作为原型的聚类中心是否合格。直观的方法是将分类器wn作为一个自动“评估器”:用它来计算F中每个聚类中心Fi的预测得分:
在这里插入图片描述
然后，我们选择那些具有高置信度的中心:zi >µf，其中µf是一个阈值，通常是一个非常高的值，如0.9。我们用F ’ = {F ’ 1，···，F ’ k ’ 1}表示所选值。有信心的预测表明该类的强局部特征，即原型
在使用这些局部原型生成LPCAM之前，强调在LPCAM的实现中，不仅保留了非判别特征，而且还抑制了强context特征(即假阳性)，因为上下文原型的提取和应用很方便——类似于类原型，但以相反的方式。我们在下面详细阐述这些。对于context聚类中心集B中的每个Bi，我们应用与Fi相同的方法来计算预测得分:
在这里插入图片描述
直观地说，如果模型在类标签上训练得很好，那么它对context特征的预测应该非常低。
因此，我们选择zi <µb的中心(其中µb通常是一个类似0.5的值)，并将它们表示为b ’ = {b ’ 1，···，b ’ k ’ 2}。值得注意的是，我们的方法对超参数µf和µb的值不敏感，给出合理的范围，例如，µf应该在0.9左右有一个很大的值。我们在章节中对此进行了实证验证

生成LPCAM

对于每个原型，我们将其滑动到特征映射块上的所有空间位置，并计算其与每个位置的局部特征的相似度。我们采用余弦相似度，就像我们使用K-Means一样。最后，我们得到了原型与特征之间的余弦相似度映射。计算完所有相似度图后(通过滑动所有局部原型)，我们将它们聚合如下:
在这里插入图片描述
FGn突出显示输入图像中与第n个原型相关的类区域，而BGn突出显示context区域。前者需要保留，后者(例如，与背景高度相关的像素)应该被删除。因此，我们可以将LPCAM表述如下: