论文翻译《Unsupervised Discovery of Object Landmarks as Structural Representations》

项目地址：http://www.ytzhang.net/projects/lmdis-rep/

paper：Unsupervised Discovery of Object Landmarks as Structural Representations

翻译：

无监督检测物体特征点作为结构表示

摘要

DNN可以对具有丰富潜在表示的图像建模，但它们不能以人类可感知的方式自然地概念化对象类别的结构。本文讨论了在无监督的情况下在图像建模过程中学习对象结构的问题。我们提出一种自动编码公式来建检测特征点作为明确的结构表示。编码模块输出特征点坐标，其有效性通过反映特征点所需属性的约束来保证。解码模块将特征点作为在端到端可微框架中的能学习输入表示的一部分。我们发现的特征点在语义上有意义，并且比以往方法在人工标注的特征点预测方面更好。特征点坐标也是对识别视觉属性进行预训练DNN表征的补充特征。另外，所提出的方法可以创建无监督的可感知接口，以操纵物体的形状并以可控结构解码图像。项目地址： http://ytzhang.net/projects/lmdis-rep

1.介绍

计算机视觉试图理解反映物体物理状态的物体结构，并显示出个体外观变化的不变性。这种内在结构可以作为高级视觉理解的中间表示。然而，物体结构（例如，骨架，语义部分）的人工标注或设计对于大多数对象类别来说代价昂贵且稀有，这使得物体结构的自动表示学习成为该挑战很有吸引力的解决方案。

现代神经网络可以学习潜在的表征，以有效地解决各种视觉问题，包括图像分类[26,53,56,20]，分割[32,40,21]，目标检测[17,80,49]，人体姿态估计[ 39]，三维重建[13,67,14]和图像生成[25,18,43]。一些现有的研究[17,76,1]发现这些表示能自然编码特定视觉模式的大量模板。然而，很少有证据表明，DNN可以自然地将一个对象范畴的内在结构紧凑而可感知地概念化。

我们的目标是在无监督的情况下学习概念化对象结构的物理参数。作为内在结构的典型表示，特征点代表了同一类别不同对象实例中稳定局部语义的空间配置。 Thewlis等人[59]提出了一种无监督的方法在一个CNN可以检测到高空间等距变换图像稳定的视觉模式的地方来定位特征点。然而，这种方法没有明确促使特征点出现在图像建模的关键位置。

本文讨论了在通用图像建模过程中检测特征点的问题。特别是，我们将特征点检测作为图像自动编码的中间步骤。为了利用来自基于特征点的图像解码器的训练信号，梯度需要经过特征点坐标，这使Thewlis等人[59]无差分的公式不可行。用不同的方式计算特征点坐标，图像解码模块可以使特征点结构信息与图像重建有关。我们还引入了额外的正则化术语来强化检测到的特征点的理想性能，并防止特征点坐标编码不相关或有冗余的潜在信息。

我们在本文中的贡献如下。

1、我们为物体特征点检测开发了一个可微的自动编码器框架，它允许图像解码器将训练信号传播回特征点检测模块。我们引入几个软约束来反映特征点的属性，迫使检测得到的表示成为有效的特征点。

2、所提出的方法检测视觉上有意义的特征点，而不用监督各种物体。它比目前最好的人工标注特征点预测方法的准确性更好，并且它的性能与全监督的具有大量标记数据的特征点检测器相当。

3、检测的特征点在识别视觉属性时表现出很强的辨别性能。

4、我们的基于特征点的图像解码器对于可控图像解码是有用的，诸如物体形状操作和条件结构图像生成。

2.相关工作

判别部件学习。Parts是计算机视觉中常用的物体结构。可变形部件模型[15]学习物体Parts结构以优化物体检测的准确性，其中类似的想法源于早先的星座方法[16,66,6]。最近一种基于DNN的方法[72]对姿势估计的可变形混合部件进行端到端学习。经常性的结构[19]和空间变换网络[23]也被用来发现和改善物体部件的细粒度的图像分类[27]。此外，在没有明确监督的情况下，也可以发现有区别的中级补丁[54]。基于子空间分析和聚类技术的物体部件检测也被证明可以改善基于神经网络的图像识别[52]。与特定于区分性任务的方法不同，我们的工作重点在于学习通用图像建模的特征点。

学习结构表示。为了捕捉物体的内在结构，现有的研究[44,45,37]将视觉内容分解为多种变化因素，如相机的视点，动作和身份。然而，这些因素的物理参数仍然嵌入不可察觉的潜在表征中。基于多任务学习的方法[78,21,65,81]可以将概念化结构（例如特征点，掩模，深度）作为附加输出。这种环境中的这些结构是由人类设计的，需要监督学习。

学习图像对应的显式结构。对象结构在对象实例之间创建对应。共定位[57,9]实现了对象对应的最粗糙的级别。在更细的粒度中，AnchorNet [41]学习对象部件及其在不同对象和类别间的对应关系。WarpNet [24]通过估计（TPS）变换的参数来对应同一类别中的图像[4]，它可以使用单视图图像粗略重建三维点云。3D解释器网络[67]利用2D特征点标注来检测3D骨架作为物体的显式结构。我们检测到的特征点比物体部件更密集，比3D点更稀疏。这些特征点表示对精确位置也更加敏感，并且在无监督的情况下获得。

具有等变性的特征点检测。像特征点这样的物体结构应该与图像变换等同，包括物体和相机运动。在2D图像中使用这个属性，Rocco等人[50]提出检测TPS控制点来密集匹配图像。Thewlis等人[58]试图密集地将不同的物体映射到反映物体结构的规范坐标。Thewlis等人没有学习密集的对应关系， [59]采用了相同的等变性属性作为指导，在没有人工监督的情况下训练DNN进行物体的特征点检测。在早期工作中使用手工特征，出现了类似的想法[30]。相比之下，我们的方法不仅将等变作为约束条件来确保特征点的有效性，而且还使用可微的公式将特征点坐标并入通用图像建模过程。此外，我们检测的特征点比Thewlis等人获得的更好预测人工标注的特征点[59]，我们的方法在更广泛的对象类别上能有效工作。

特征点图像建模。许多无监督深度学习技术可用于建模视觉内容，包括栈式自编码（SAE）[2,36]，变分自动编码器[25]，生成对抗网络（GAN）[18,43]和自回归网络[63]（例如，PixelCNN [62]）。在[46,47]中提出了基于GAN和PixelCNN的图像生成器，该图像生成器以给定物体特征点为条件。相反，我们的方法使用SAE框架来自动检测为无监督图像建模提供信息的特征点。

特征点检测。文献中存在大量的有监督的特征点检测方法。对于人脸，有活跃的外观模型[10,38,11]，有基于模板的方法[42,83]，有基于回归的方法[61,12,7,48]以及最新的基于DNN的方法[55，77，81，82，75，70，68，33，71]。特征点检测方法也可用于人体[73,60,39]和鸟类[75]。我们使用我们检测的特征点来预测人工标注的特征点，并将我们的方法与最近的一些监督模型进行比较。

3.基于自动编码的特征点检测

我们的目标是自动检测特征点作为视觉内容的明确表示。我们提出一个自动编码器，将特征点坐标编码为编码器输出（的一部分）（第3.1节）。如果没有人工标签的监督，我们会引入一些限制条件来使得检测到的特征点坐标反映符合人类感知的视觉概念（3.2节）。所提出的约束防止基于特征点的表示退化到不可察觉的潜在表示。编码器的另一方面为每个检测的特征点提取局部潜在描述符（第3.3节）。我们使用特征点和潜在描述符来重建输入图像（3.4节）。本节为特征点检测和无监督图像建模提供完全可微的神经网络架构（图1）和训练目标（第3.5节）。

图1：无监督特征点检测的自动编码框架的神经网络架构。详情请参阅文本。

3.1。特征点检测器的结构

我们将特征点检测作为检测图像中特定关键点的问题[39]。具体而言，每个特征点都有一个相应的检测器，它可以卷积输出检测到的特征点位于最大值的分数图。在此框架中，我们使用DNN将图像I转换为（K+1）-通道检测置信图。该图检测K个特征点，第（K+1）个通道表示背景。D的分辨率W*H可以等于或小于I，但它们应具有相同的宽高比。

受到人体姿态估计[39]中叠加沙漏网络（stacked hourglassnetwork）成功的启发，我们提出了一个轻量级沙漏网络来获得原始检测分数图：

表示参数。沙漏结构（附录G.2）使检测器利用更高级别的上下文集中处理特征点位置的关键局部pattern。然后，我们将无界的原始分数转换为概率，并使得每个通道检测不同的pattern。为此，我们使用softmax对R通道（包括背景）进行归一化，并获得检测置信度图

其中矩阵是D的第k个通道，并且标量是像素（u，v）处的的值。稍后，我们还使用矢量来表示（u，v）中D的多通道值。相同的符号适用于三个轴的其他张量。

以作为加权图，我们使用加权平均坐标作为第k个特征点的位置，即，

是空间归一化因子。这个公式可以实现从下游神经网络通过特征点坐标向后传播梯度，除非完全集中在单个像素中，或者完全均匀分布，这在实践中很少发生。作为速记符号，我们将特征点和特征点检测器写为：

图一中蓝色路径的左半部分显示了特征点检测器

3.2 特征点的视觉概念

ℓ中的元素应该是检测的特征点坐标，但到目前为止，并不能保证它们不是任意的潜在表示。因此，我们提出以下软约束作为正规化特征点，使其有理想的性能。

浓度约束。作为单个位置的检测置信度图，的mass需要集中在局部区域。以（如（3）中的空间归一化）作为图像坐标上二元分布的密度，我们计算沿着两个轴的方差和。我们将浓度约束损失定义如下，使两个方差都很小：

该等式使成为各向同性高斯分布的熵的指数，其中，I是单位矩阵。这个高斯分布是的近似值，较低的熵意味着更高的峰值分布。请注意，在形式上，这个近似值是

分离约束。理想情况下，自动编码器训练目标可以自动检测得到K个特征点在不同局部区域分布，从而可以重建整个图像。然而，最初的随机性可以使得定义为在（3）中由D加权的平均坐标的特征点，在训练开始时在图像中心周围。这可能导致梯度下降不能避免局部最优解（见附录F.2）。为了规避这种问题，我们引入了明显的损失来在空间上分离这些特征点：

等变约束。一个特征点应该定位一个稳定的局部pattern（具有明确的语义）。这需要特征点显示图像变换的等同性。更具体地说，如果相应的视觉语义仍然存在于变换后的图像中，则特征点应该根据应用于图像的变换（例如，相机和对象运动）而移动。是一个坐标转换，将图像I映射到和。我们最好有，得到软约束:

当g已知时，这个损失函数是明确定义的。受Thewlis等人启发。 [59]，我们用随机参数的薄板样条函数（TPS）[4]来模拟g。我们使用随机平移，旋转和缩放来确定TPS的global afﬁne component ;并且，我们空间扰动一组控制点以确定局部TPS分量。除了在预定义的均匀网格上选择TPS控制点的传统方法（如[59]中所用），我们还将当前模型检测到的特征点作为控制点，以改善专注于关键图像pattern的仿真转换。这两组控制点在每次优化迭代中交替使用（详见附录F.3）。此外，当训练样本以视频形式出现时，我们也可以将密集运动流作为g，将实际下一个帧作为I’。

交叉对象对应。我们的模型没有明确确保在不同对象实例上特征点检测之间的语义对应。特征点交叉对象语义稳定性主要依赖于激活相同卷积滤波器的视觉模式可能共享语义相似性的事实。

3.3。局部潜在描述符

对于简单的图像，如MNIST [29]（参见附录B中MNIST的结果），多个特征点足以描述物体形状。然而，对于大多数自然图像，特征点不足以表示所有视觉内容，因此需要额外的潜在表示来编码补充信息。虽然有必要，但潜在的表示不应编码过多的整体信息，这些信息可能会覆盖特征点所反映的图像结构。否则，自动编码器不能将特征点定位在有意义的位置。为了实现这种平衡，我们在每个特征点上添加一个低维的局部描述符。

引入沙漏式神经网络（见附录G.2）以获得特征图F，其具有与检测置信度图D相同的尺寸：

注意，F在所有的特征点共享的特征空间并具有S个通道

对于每个特征点，我们使用以特征点为中心的soft mask加权的平均池，以提取共享空间中的局部特征。特别是，我们将作为soft mask，它是（6）中定义的检测置信度映射的高斯近似。然后，为每个特征点引入可学习的线性算子，以将特征表示映射到较低维的单独空间。因此，第k个特征点的潜在描述符是：

C< S。landmark-speciﬁc 的线性算子使每个特征点描述符能够以有限的bits对特定模式进行编码。我们也可以使用（10）来提取低维背景描述符。由于用高斯分布近似背景置信度图是不合理的，因此我们正好设置了。请注意，对于特征映射和检测置信度映射都是可区分的。
把所有的潜在描述符放在一起，我们有。图1中红色路径的左半部分说明了提取特征点描述符的神经网络架构。

3.4。基于特征点的解码器

我们将特征点坐标大致反转为检测置信度图。具体而言，我们使用以各个特征点为中心的各向同性高斯分布的概率密度来获得原始分数图：

并将背景通道设置为1.然后将跨通道归一化以获得重构的检测置信度图

图一(蓝色路径的右半部分)说明了这一点

对于每个特征点（包括背景）描述符，我们通过landmark-speciﬁc操作符和激活函数（例如LeakyReLU [34]）将它转换为共享特征空间。使用作为全局上池化（unpooling）的软开关，我们复原了特征图:

是非线性激活函数。图1中红色路径的右半部分说明了。

虽然用于决定特征点图像解码替代的神经网络体系结构可用（例如[46,47]），但是我们提出的结构可以通过特征点坐标进行反向传播。高斯方差确定相邻像素对特征点坐标的梯度起多大作用，以及描述符在复原的特征地图中是多么sharp。尽管在训练的早期阶段包含更多的反向传播像素非常重要，但随着训练的进行，锐化变得更加重要。为了平衡这两个需求，我们根据的不同值，例如，获得的多个版本。

让成为通道级联。我们使用另一个沙漏网络来重构图像：

图一中的灰色路径说明了图像解码器。

3.5。整体训练目标

图像重建损失驱动整个自动编码器的训练。我们将定义为，并将其归一化为[0,1]。完全损失是λreconLrecon+λconcLconc+λsepLsep+λeqvLeqv。（15）

图2：检测CelebA图像上的10个特征点。Thewlis等人的所有数据[59]来自他们的论文。最后一行显示来自[59]的不成功案例，下面有错误描述。

4.实验

我们在各种数据集上评估我们的方法，包括CelebA [31]和AFLW [35]上的人脸，猫头数据集[79]，PASCAL 3D [69]构建的汽车数据集，UT Zappos50k [74 ]的鞋的数据集，来自Human3.6M [22,8]人体姿态数据集，MNIST（附录B）和来自AwA [28]（附录D）的动物图像数据集。

4.1节描述了数据集并显示了特征点检测的定性结果。在第4.2节中，我们使用检测的特征点来预测人类标注的特征点，并将特征点检测准确率作为特征点检测的质量指标。第4.3节，我们检测的特征点可以作为有效的图像表示来预测CelebA上与形状相关的面部属性。在4.3节中，我们展示了我们的解码模块和自动检测的特征点可用于操纵物体形状。

4.1。在多个数据集上检测特征点

我们在各种物体上训练和评估特征点检测模型。神经网络模块(i.e., hourglassℓ|f|d)的详细结构取决于不同数据集上的图像大小。附录G描述了实现细节，包括数据预处理，网络结构，模型参数和优化方法。CelebA继[59]之后，我们使用CelebA训练集中的所有面部图像，不包括那些MAFL中出现的测试集1（总共16,1962幅图像），以训练用于特征点检测的模型。我们使用MAFL测试集（1000个图像）作为所有的测试用例，并保留MAFL训练集（19,000个图像）以训练人工标注特征点的预测模型。默认情况下，我们使用数据集中提供的裁剪和对齐图像。

图3：使用我们在对齐的面部图像上训练的模型检测未对齐的头肩图像上的10个特征点。

图4：使用我们的方法在CelebA图像上检测30个特征点。

图5：使用我们的方法检测猫头像上的特征点。上排：10个特征点;下排：20个特征点。

如图2所示，我们的方法可以在语义上有意义且稳定的位置（例如前额中心，眼睛，眉毛，鼻子和嘴角）自动检测面部特征点。与Thewlis等人相比， [59]的方法导致了一些重要的误差，我们的方法可以更加稳健地定位特征点以应对姿态变化和遮挡。有趣的是，我们的方法可以在没有对完全相同类型的图像进行训练的情况下对头肩肖像进行work out-of-the-box（图3）。图4显示我们的方法还可以在未对齐的面部图像上学习和检测数量更多的（例如30），高质量的特征点。附录E.1显示了更多结果。

AFLWAFLW中的人脸图像与CelebA不同。特征点检测模型（包括我们的和Thewlis等[59]的）在CelebA上进行了预训练，并且在AFLW训练集（10,122张图像）上进行了适应性微调。AFLW测试集合（2,991张图片）的采样结果见附录E.2。

猫头我们的模型训练了7,747只猫头图片并在1,257张图像上进行了测试。与人脸相比，猫头展现出更整体的外观变化。如图5所示，我们的模型可以检测不同猫科动物品种的一致性特征点（例如，耳朵，鼻子，嘴巴），并有趣地预测重要遮挡下的特征点位置（第一幅图像）。附录E.3显示了更多结果。

图6：检测鞋子上的8个特征点。

图7：检测汽车轮廓图像上的10个特征点。

图8：检测Human3.6M数据集上的16个特征点。

汽车我们通过修剪PASCAL 3D数据集中的汽车图像来构建汽车轮廓视图数据集。该数据集的样本数量有限（567幅用于训练和63幅用于测试）。如图7所示，我们的方法仍然可以使用相对较小的训练集学习有意义的特征点（例如，挡风玻璃，驾驶员侧门，车轮，车尾）。请注意，我们将汽车的3D的标注转换为（2D）二维特征点，因此该数据集已准备好进行定量评估。附录E.4显示了更多结果。

鞋子我们使用与[59]（49,525张训练图像和500张测试图像）相同的设置。如图6所示，在不同类型的鞋子的语义稳定位置处检测特征点。附录E.5显示了更多结果。

Human3.6M Human3.6M包含稳定背景下的人类活动视频。我们使用Human3.6M训练集中的全部7个subjects进行评估（6个用来训练和1个用来验证）。我们考虑了人体直立方向大部分时间的6个activities（方向，讨论，摆姿势，等待，问候，行走），796,648个训练图像帧和87,975个图像帧用于测试。我们使用数据集中提供的现成的无监督背景去除方法去除背景。人体被裁剪并大致对齐脚的位置，以便去除过多的背景区域。

与之前提到的对象类型相比，人体具有更多的形状变化。如图8所示，我们的方法可以在各种姿势中检测大致一致的特征点。特别是，头部，背部，腰部和腿部的特征点在图像上是稳定的。手臂上的特征点在不同的姿势中相对不太一致，但它们仍然是语义上有意义的位置。由于人体在正面和背面视图都是相似的，因此我们区分检测的特征点是人体的左侧还是右侧，这意味着正面视图左腿的特征点可以定位成在后面视图上的右腿的特征点。由于训练数据是视频格式，所以光学流程被用作（8）中等式约束的短期自监督。附录C描述了Human3.6M实验的更多细节和结果。

4.2。groundtruth特征点的预测

无监督的特征点学习是有用的，因为它有可能与人类感知那样检测物体的结构。我们通过预测人工标注的特征点来评估检测的特征点的质量。具体而言，我们使用一个没有偏置项的线性模型，从检测的特征点到人工标注的特征点进行回归。训练这个线性回归器需要Ground truth特征点注释。Thewlis等人[59]广泛使用随机TPS来增强检测和标记的训练特征点（在CelebA和ALFW上）。但是，我们不使用数据增强来减少训练的复杂性。即使在这种情况下，我们的方法也表现出更强的性能。

与人类设计的特征点更相关。在表1a中，我们将使用在CelebA训练集上训练的模型回归检测的特征点到5个带注释的特征点。CelebA训练集或更小的MAFL训练集中的特征点标签用于训练回归器。我们的方法对带标注的训练集减小不敏感。它比Thewlis等人。[59]特征点检测误差减少了55％，比Thewlis等人[58]减少了45％。值得注意的是，我们用30个检测的特征点实现了这一点，而他们使用了50个特征点或密集的物体框架。另外，表2证明了我们的方法在猫头数据集（7个目标特征点），汽车数据集（6个目标特征点）和Human3.6M4（32个目标特征点）上的一贯优势。图9显示了特征点回归结果。

（a）在MAFL测试集上和无监督特征点学习比较

（b）在MAFL和ALFW数据集上和有监督方法比较

（c）我们的方法使用的ablative训练损失。每个损失请参考（15）。使用10个检测的特征点在MAFL测试集上获得结果。

与全监督的方法相比的竞争性能。将特征点检测模型与线性回归器相结合，我们可以得到一个人类设计特征点检测器。与完全监督的方法不同，我们的模型可以用大量未标记的数据进行训练，线性回归器可以在几分钟内使用相对少量的标记数据进行训练。表1b表明，我们的模型在MAFL和AFLW测试集上胜过以前的无监督方法和现有的预训练全监督模型。在AFLW上，我们将5个始终可见的特征点作为回归目标。所有提到的模型都是在MAFL训练集上或其他公开数据集上训练的。

图9：标注特征点的预测。彩色十字：检测到的特征点;红点：标注的特征点;圆形：回归的特征点，其颜色代表与标注特征点的距离。查看距离的颜色条（即预测误差）。

表2：猫头，汽车和人体上标注的特征点预测的平均误差。有关双目距离，双轮距离和图像大小的错误分别为％。

具有少量标注样本的特征点检测。以我们的模型作为人工标注特征点的检测器，我们发现少于200个样本足以使我们的模型在MAFL测试集上的平均误差小于4％，这比TCDCN和MTCNN的性能要好。学习曲线在附录F.1。

不同损失项的有效性。我们的方法结合了训练目标中的几个损失项（15）。表1c表明，删除任何损失项都会导致我们的模型性能下降。尤其是，消除（separation loss）分离损失可能会毁掉模型，关于这个损失项的更详细讨论见附录F.2。我们对特征点有效性约束的新的可微公式已经能得到比Thewlis[59]等人更低的特征点检测误差。增加重建损失可以进一步提高准确性。

4.3。视觉属性识别

特征点反映物体形状。我们使用我们检测到的特征点作为特征表示来识别CelebA上与形状相关的二进制面部属性（找到13个已标记的属性）。我们仍然采用MAFL测试集进行评估。针对CelebA训练集上的每个属性训练线性SVM。我们还将我们的特征点坐标与属性识别任务的预训练的FaceNet [51]（InceptionV1）顶层（128-dim）和顶层卷积层（1792-dim）特征进行比较。如表3所示，大多数属性上我们检测的特征点（60-dim）比FaceNet顶层特征更胜一筹。卷积层的特征略微超过我们的特征点，但有更高的维度。结合特征点坐标和FaceNet的特征，可实现更高的精度。这表明检测到的特征点与对分类任务进行预训练的图像特征是互补的。

4.4。图像处理和生成

我们联合训练图像解码模块决定其输出，输入是特征点及其潜在描述符。如果两个条件都disentangled，我们应该能够通过仅调整特征点而不改变其他外观因素来操纵对象形状;或反之亦然。请注意，基于特征点的图像变形不是一个新的课题，最近还探索了基于地标的分层图像解码[46,64,47]。但是，这些特征点都是由人类设计和标注的。到目前为止，很少有证据表明，在图像生成上面自动检测的特征点有足够准确性和代表性。

在图10中，我们合成流来调整输入图像的检测的特征点。修复特征点潜在描述符，我们获得形状与新特征点相符的实际的面部和人体图像。除面部和身体形状之外，输入图像的外观因素不会在视觉上改变。这一结果表明，我们的图像解码模块可以在无监督的情况下用学习的特征点来合成实际的图像，并且还表明我们检测的特征点已经成为与图像建模的其他多种因素分离的显式表示。附录A中提供了有关无监督特征点进行脸部操作的实施细节和更多结果。

表3：使用预训练的FaceNet特征和我们在MAFL测试集上检测的30个特征点进行视觉属性识别。

在图11中，我们不调整特征点坐标，而是使用参考图像检测的特征点作为控制信号来生成新的面部图像。遵循GAN框架[18]，生成图像的潜在表示是从先前的分布随机抽取的。正如Reed等人[46]，特征点坐标和潜在表示被组合用于图像生成。我们采用BEGAN [3]作为鉴别器和训练目标。此外，我们对特征点坐标应用循环损失，这会促使在生成的图像上检测与参考图像上相同的特征点。我们的结果为图像建模中检测特征点的有用性提供了额外的证据。实施细节在附录G.5中。

5.结论

我们解决了无监督特征点检测的问题，并将其作为图像表示学习的中间步骤。具体而言，提出了一种完全可微的神经网络架构来确定特征点坐标以及提出使检测地标的有效性的软约束。检测的特征点在视觉上有意义，并且在数量上与人类设计的特征点更相关。在我们的框架中，检测的特征点是学习图像表示的明确部分。他们从其他外观因素的潜在表现中分离出来。基于特征点的显式表示不仅为操纵图像生成过程提供了接口，而且似乎是预训练的DNN特征的补充，以解决分类任务。