自监督论文S4L翻译

Abstract

这项工作解决了图像分类器的半监督学习问题。我们的主要观点是,半监督学习领域可以受益于自监督视觉表示学习的快速发展领域。结合这两种方法,我们提出了自监督半监督学习(S4L)的框架,并用它推导了两种新的半监督图像分类方法。我们证明了这些方法与仔细调整的基线和现有的半监督学习方法相比的有效性。然后,我们证明了S4L和现有的半监督方法可以联合训练,从而在标签为10%的半监督ILSVRC-2012上产生了最新的结果。

Introdution

现代计算机视觉系统在各种具有挑战性的计算机视觉基准上表现出出色的性能,例如图像识别[31],对象检测[20],语义图像分割[7]等。它们的成功依赖于大型计算机的可用性。 大量耗时且昂贵的带注释数据。 而且,此类系统的适用性通常在其训练所依据的数据集所定义的范围内受到限制。 许多现实世界中的计算机视觉应用程序关注的是标准基准数据集中不存在的视觉类别,或者涉及动态性质的应用程序,其中视觉类别或其外观可能会随时间变化。 不幸的是,为所有这些情况构建大型的标记数据集实际上是不可行的。 因此,设计一种学习方法是一项重要的研究挑战,通过仅使用少量标记的示例就可以成功学习识别新概念。 在仅看到几个(带有标签的)示例之后,人们很快就能理解新概念的事实表明,该目标原则上是可以实现的。

令人注意的是很多研究成果致力于从未标记的数据中修学习到,在许多实际应用中,获取数据要比标记的数据轻松得多。 在这种努力下,自我监督的视觉表示学习领域最近证明了最有希望的结果[15]。 自我监督的学习技术定义了前置任务,这些任务只能使用未标记的数据来制定,但是确实需要更高层次的语义理解才能解决。 结果**,为解决这些前置任务而训练的模型学习了可用于解决其他感兴趣的下游任务(例如图像识别)的表示形式。**

尽管展示了令人鼓舞的结果[15],纯自我监督的技术学习的视觉表现明显不如完全监督的技术。因此,它们的实际适用性是有限的,迄今为止,仅自我监督是不够的。我们假设自监督学习技术可以从少量标记的例子中显著受益。通过对各种方法的研究,我们将自监督学习和半监督学习联系起来,提出了一个由自监督学习目标引起的半监督损失的框架。我们称这种框架为自监督半监督学习,简称S4L,由此得到的技术可以看作是一种新的自然图像半监督学习技术。图1说明了提议的S4L技术的思想。因此,我们评估我们的模型,无论是在半监督的设置,以及在传输设置通常用于评估自我监督的表现。此外,我们为标杆管理方法设计了强大的基线,这些方法只学习了ILSVRC-2012中10%或1%的标签。

我们进一步实验研究了我们的S4L方法是否能进一步受益于半监督文献提出的正则化,并发现它们是互补的,即将它们结合起来可得到改进的结果。我们的主要贡献可以总结如下:•我们提出了一个新的半监督学习技术家族,利用自然图像来反映自我监督表征学习的最新进展。
•我们证明,所提出的自监督半监督(S4L)技术优于在没有未标记数据的情况下训练的小心完全调谐基线,并取得与先前提出的半监督学习技术相竞争的性能。
•我们进一步证明,通过将我们最好的S4L方法与现有的半监督技术相结合,我们在半监督ILSVRC-2012基准上实现了最新的性能

relatework

半监督学习

在这项工作中,我们在半监督学习和自我监督学习两个领域都基于当前的最新技术水平。 因此,在本节中,我们回顾了这些领域中最相关的发展。
2.1。 半监督学习半监督学习描述了一类算法,该算法试图从未标记样本和已标记样本中学习,这些样本通常假定是从相同或相似分布中采样的。 从未标记数据的结构中获取哪些信息的方法不同

鉴于文献中提出的各种各样的半监督学习技术,我们参考[3]进行了广泛的调查。 有关更多背景信息,我们将重点放在基于深度神经网络的最新开发上。 评估半监督学习算法的标准协议的工作方式如下:(1)从标有标准的数据集开始; (2)在该数据集上仅保留一部分标签(例如10%); (3)将其余部分视为未标记的数据。 尽管这种方法可能无法反映半监督学习的实际设置[27],但它仍然是标准的评估协议,在这项工作中我们将遵循它。 深度神经网络半监督学习的许多初步结果都是基于生成模型的,例如去噪自动编码器[30],变分自动编码器[14]和生成对抗网络[26,32]。 最近,一项研究表明,通过增加对未标记数据计算的一致性正则化损失,可以在标准基线上获得更好的结果。 这些一致性正则化损失度量了对未标记数据点的扰动所做出的预测之间的差异在测量这些扰动之前,通过平滑预测还显示出其他改进。 这些方法包括-模型[17],时间集合[17],中庸教师[38]和虚拟对抗训练[21]。 最近,fast-SWA [1]通过训练循环学习率和测量来自多个检查点的预测值的差异来显示更好的结果。 通过最小化一致性损失,这些模型隐式地将决策边界推离了未标记数据的高密度部分。 这可以解释它们在典型图像分类数据集上的成功,其中每个聚类中的点通常共享同一类。 半监督学习的另外两种重要方法,即在深度神经网络和其他类型的模型中均显示出成功的方法,是伪标签[18],其中一种方法是通过对经过训练的模型进行预测来对未标记数据进行近似分类 仅对标记的数据和条件熵最小化[10],鼓励所有未标记的示例对某一类做出自信的预测。 半监督学习算法通常在小规模数据集(例如CIFAR-10 [16]和SVHN [22])上进行评估。 我们知道,在文献中很少有例子在较大,更具挑战性的数据集(例如ILSVRC-2012)上评估过半监督学习算法[31]。 据我们所知,Mean Teacher [38]目前仅使用10%的标签就拥有ILSVRC-2012的最新结果

自监督学习框架

自监督学习是一种通用的学习框架,它依赖于代理(借口)任务,这些任务只能使用**无监督的数据形成。**一个借口任务的设计方式是,解决它需要学习一个有用的图像表示。自监督技术在广泛的计算机视觉领域有两种应用[13,34,6,28,33]。本文采用自监督学习技术,从图像数据库中学习有用的视觉表示。这些技术在仅从无监督图像学习视觉表示的方法中实现了最先进的性能。下面我们对这方面最重要的事态发展作了不全面的总结。Doersch等人。提出训练一个预测两个随机采样的非重叠图像块相对位置的CNN模型[4]。后续文献[23,25]将这一思想推广到预测多个随机抽样和排列的斑块的排列。’

除了上述基于补丁的方法外,还有一些使用图像级损失的自监督技术。其中,在[39]中,作者建议使用灰度图像着色作为借口任务。另一个例子是一个借口任务[9],它预测应用于输入图像的旋转变换的角度。一些技术超出了解决代理分类任务和对表示空间强制约束的范围。一个突出的例子是[5]中的样本损失,它鼓励模型学习对重图像增强不变性的表示。另一个例子是[24],它对视觉表达实施了相加性约束:所有图像块的表示之和应该接近整个图像的表示。最后,[2]提出了一个学习过程,在表示空间中交替地对图像进行聚类,并学习一个将图像分配给其聚类的模型

Method

在本节中,我们将介绍我们的自监督半监督学习(S4L)技术。我们首先对我们的方法做一个大致的描述。之后,我们将介绍我们方法的具体实例。重点研究了半监督图像分类问题。形式上,我们假设图像和标签上的(未知)数据生成联合分布p(X,Y)。该学习算法可以得到一个有标记的训练集Dl,它是从p(X,Y)的i.i.d.采样的,而一个无标记的训练集Du是从边际分布p(X)的i.i.d.采样的。我们在本文中考虑的半监督方法的学习目标如下:

我们现在描述我们的自监督半监督学习技术。为了简单起见,我们在多类图像识别的背景下提出了我们的算法,尽管它可以很容易地推广到其他场景,如密集图像分割。需要注意的是,在实践中,目标3使用随机梯度下降(或变量)进行优化,使用小批量数据更新参数θ。在这种情况下,可以任意选择有监督的小批量xl、yl⊂Dl和无监督的小批量xu⊂Du的大小。在我们的实验中,我们总是默认使用最简单的可能选项,即使用大小相等的小批量。我们还注意到,我们可以选择是否将小批量xl纳入自监督损失,即将Lself应用于xu和xl的联合。我们在实验第4.4节中实验研究了这种选择的效果。我们展示了两种重要的自监督技术的框架:预测图像旋转[9]和样本[5]。注意,在我们的框架下,将来可以探索更多的自我监督损失

rotation

其中R是4个旋转度的集合{0°,90°,180°,270°},xr是旋转了r的图像x,fθ(·)是具有参数θ的模型,L是交叉熵 失利。 这导致了4类分类问题。 我们遵循[9]的建议,并且在单个优化步骤中,我们始终会应用并预测小批量生产中每个图像的所有四个旋转。 我们还将自我监督的损失应用于每个小批量中的标记图像。 由于在这种情况下我们处理旋转的监督图像,因此建议对这些图像也应用分类损失。 当有少量标记图像可用时,这可以看作是在方案中对模型进行正则化的另一种方法。 我们将在第4.4节中评估这种选择的效果。

Examplar自我监督[5]的思想是学习一种视觉表示,该视觉表示对于各种图像变换都是不变的。 具体来说,我们使用[Inception]裁剪[37],随机水平镜像和HSV空间颜色随机化(如[5]中所述)来在一个小批处理中生成每个图像的8个不同实例。 随后[15],我们将Lu实现为具有soft margin的批处理硬三元组损失[12]。 这鼓励将3张相同的图像转换为具有相似的表示反之,则鼓励不同的图像转换为具有不同的表达。 与旋转自我监督的情况类似,Ls应用于每个图像的所有八个实例。

示例性自我监督[5]的思想是学习一种视觉表示,该视觉表示对于各种图像变换都是不变的。 具体来说,我们使用[Inception]裁剪[37],随机水平镜像和HSV空间颜色随机化(如[5]中所述)来在一个小批处理中生成每个图像的8个不同实例。 随后[15],我们将Lu实现为具有软裕度的批处理硬三元组损失[12]。 这鼓励同一图像的变换具有相似的表示,反之,鼓励不同图像的变换具有不同的表示。 与旋转自我监督的情况类似,将Ls应用于每个图像的所有八个实例

问题:自监督损失Ls到底是什么

在以下部分中,我们将S4L与几种不基于自我监督目标的领先半监督学习算法进行比较。 现在,我们描述比较的方法。 我们提出的目标3也适用于半监督学习方法,其中损失Lu是如下所述的标准半监督损失。 虚拟对抗训练(VAT)[21]:想法是使预测标签在输入数据点附近具有鲁棒性,而不受局部干扰。 它近似于未标记数据点的变体附近的预测中的最大变化,其中变体是超参数。 具体而言,模型fθ的增值税损失为:

虚拟对抗训练(VAT)[21]:该思想是使预测的标签在输入数据点周围具有鲁棒性,以抵抗局部扰动

. ILSVRC-2012 Experiments and Resu

在本节中,我们介绍主要实验的结果。 由于ILSVRC-2012数据集在自我监督学习方法中的广泛使用,我们使用了该方法,并观察了半监督方法的可扩展性。 由于没有提供ILSVRC-2012的测试集,并且通常在文献中报告了验证集的编号,因此我们针对在公共训练集的自定义训练/验证部分上训练的所有模型执行了所有超参数选择。 此自定义拆分包含1 231 121训练和50 046验证图像。 然后,我们使用完整训练集上的最佳超参数(1 281 167张图像)来重新训练模型,可能带有较少的标签,并报告在公共验证集上获得的最终结果(50000张图像)。 我们遵循标准做法[38,29]并进行实验,其中标签仅可用于数据集的10%。 请注意,ILSVRC-2012的10%仍然对应于大约128 000张带标签的图像,并且先前的工作使用完整的(公共)验证集进行模型选择。 尽管我们使用从训练集中提取的自定义验证集,但使用如此大的验证集并不符合实际情况,如[30、38、27]所述。 我们还希望在评估中涵盖更实际的案例。 因此,**我们对1%的标记示例(大约13000个标记的图像)进行了实验,同时还使用了仅5000个图像的验证集。 我们将在第7节中分析验证集大小的影响。**我们始终根据可用的标记数据定义epoch,**即一个epoch对应于标记数据的一次完整遍历,**无论看到多少未标记的示例。 除非另有说明,否则我们使用随机梯度下降和动量的minibatch数量是256的优化模型。 在调整学习率的同时,我们在所有实验中都将动量保持在0.9。 表1总结了我们的主要结果

发现对于S4L旋转和S4L样本,自监督减肥w=1的效果最好(虽然不是很好),并且最优的体重衰减和学习率与监督基线相同。

如第3.1节所述,我们对标记图像和未标记图像应用自监督损失。此外,旋转和样本自监督都会生成每个图像的8个副本,并且我们会对标记图像的所有副本应用监控损失。为了研究这个选择,我们对S4L旋转进行了一个案例研究,发现自我监督损失Lself是否也应用于标记图像没有显著影响。另一方面,在自监督生成的增强图像上应用监督损失Lsup确实可以将性能提高近1%。此外,这允许在推断时使用图像的多个转换副本(例如四个旋转)并取其预测的平均值。虽然这四轮预测的准确率在1%到2%之间,但我们报告的结果并没有利用这一点来保持比较的公正性。
表1所示的结果表明,我们提出的自监督半监督学习方法对于我们尝试的两种自监督方法确实有效。我们假设这些方法可以设计用于其他自我监督目标。

利用上述模型,我们通过对五种作物和每幅图像的四次旋转进行预测,将伪标签分配给整个数据集。然后,我们以完全相同的方式(即所有损失)再次训练相同的网络,除了以下三个差异:(1)使用第一步中获得的权重初始化网络(2)每个示例都有一个标签:伪标签(3)因此,一个纪元现在对应于完整的数据集;因此,我们训练18个纪元,6、12个时期后学习率下降。

目前,半监督学习的标准做法是使用标签的子集在大型数据集上进行训练,但仍然使用在完整验证集上获得的分数进行模型选择。更糟糕的是,对于ILSVRC-2012, 该验证集可用于选择超参数以及报告最终性能。 请记住,我们通过为所有超参数选择的训练集的一部分创建自定义验证集来避免这种情况,但是手头有一个大的带标签的验证集与半监督学习的承诺实用性相矛盾,这就是关于 仅带有标记的示例。 [30]已经承认了这一事实,但在半监督文献中却几乎忽略了这一事实。 奥利弗(Oliver)等人。 [27]通过比较小型验证集上估计的模型准确性,质疑了小型验证集调整的可行性。 他们发现,两个模型之间的估计准确度差距的方差可能大于这些模型之间的实际差距,这表明使用小的验证集进行模型选择可能不可行。 就是说,他们没有凭经验评估是否可以使用较小的验证集找到最佳模型,尤其是在为特定的半监督方法选择超参数时。 现在我们描述对这个重要问题的分析。
我们考察了针对ILSVRC-2012中1%的普通监督基准训练的许多模型。 对于每个模型,我们在1000个带标签的图像(即每个类别一个带标签的图像),5000个标签图像(即每个类五个带标签的图像)的验证集上计算一个验证分数,并将这些分数与在 “全尺寸”验证集,包含50 046个带标签的图像。 结果如图3所示,这是惊人的:微小验证和完全验证集的性能之间存在非常强的相关性。 尤其是,尽管部分地区存在较高的可变性,无论哪种情况,最有效的参数都可以。 最值得注意的是,在小型验证集上调整的最佳模型也是在大型验证集上调整的最佳模型。 因此,我们得出结论,对于选择模型的超参数,一个很小的验证集就足够了。

discussion

在本文中,我们通过提出一个框架(S4L)来弥合自我监督方法与半监督学习之间的差距,该框架可用于将任何自我监督方法转变为半监督学习算法。 我们实例化了两个这样的方法:S4L-Rotation和S4L-Exemplar,并表明它们在具有挑战性的ILSVRC-2012数据集上与半监督文献中的方法相比具有竞争优势。 我们进一步证明,S4L方法是对现有的半监督技术的补充,而我们建议的那些组合MOAM可以带来最先进的性能。 尽管我们研究的所有方法均显示出在ILSVRC-2012上使用10%的标签进行学习的可喜结果,但当仅使用1%的标签时,情况就不那么清晰了。 在这种低数据量的情况下,当每个类只有13个标记示例可用时,设置可能会淡化为少数情况,并且需要非常不同的一组方法才能获得更好的性能。 尽管如此,我们希望这项工作能激发自我监督领域的其他研究人员考虑使用我们的S4L框架将其方法扩展为半监督方法,以及半监督学习领域的研究人员从中汲取灵感。 最近提出的大量自我监督方法。

猜你喜欢

转载自blog.csdn.net/qq_33859479/article/details/105852445