META-DATASET: A DATASET OF DATASETS FOR LEARNING TO LEARN FROM FEW EXAMPLES

元数据集:用于学习从少数例子中学习的数据集

摘要

Few-shot分类指的是学习只给出几个例子的新类的分类器。虽然出现了大量的模型来解决这个问题，但本文发现用于评估其进展的程序和数据集缺乏。为了解决这一限制，提出了元数据集(META-DATASET):一种用于大规模训练和评估模型的新基准，它由不同的数据集组成，并呈现更现实的任务。我们用流行的baselines和元数据集上的meta-learners学习器进行了实验，并提出了一种具有竞争力的方法。本文分析了性能作为测试任务的各种特征的函数，并检查了模型利用各种训练源来提高其泛化的能力。还提出了一套新的baselines来量化元数据集中meta-learners的好处。通过广泛的实验发现了重要的研究挑战，希望激发这些方向的工作。

1介绍

Few-shot学习是指从很少的例子中学习新概念，这是人类与生俱来的能力，但机器仍然缺乏。在这方面的改进将导致更有效的算法，可以灵活地扩展它们的知识，而不需要大型标记数据集。我们关注的是Few-shot分类:将不可见的例子分类到N个新的“测试”类中的一个，每个类只给出一些参考例子。最近在这个方向上取得的进展是通过考虑一个meta-problem:虽然我们对学习任何训练classes都不感兴趣，但我们可以利用训练classes的目的，学习从少数例子学习新的类，从而获得一个学习过程，可以直接应用到新的Few-shot学习问题。

这种直觉启发了许多增加复杂性的模型(参见相关工作获得一些示例)。然而，我们认为缺乏衡量这方面成功与否的常用方法。具体来说，有两个数据集已经成为了Few-shot学习的实际基准:Omniglot (Lake等人，2015年)和mini-ImageNet (Vinyals等人，2016年)，我们相信，对于允许人们区分不同方法的优点来说，这两个数据集正在接近其极限。Omniglot是一个包含来自50种不同字母的1623个手写字符的数据集，每个类(字符)包含20个示例。大多数最新的方法在Omniglot上获得非常高的准确性，使得它们之间的比较大多没有信息。mini-ImageNet由100个ImageNet (Russakovsky et al, 2015)类(64/16/20用于训练/验证/测试)组成，每个类包含600个示例。尽管它比Omniglot更难，但它有相同的特性，在控制模型容量时，大多数最近训练的方法都有相似的精度。本文主张在这一领域取得进一步进展需要一个更具挑战性和更现实的基准。

更具体地说，当前的基准:1)考虑同质学习任务。相比之下，现实生活中的学习体验是异质的:它们在每节课的课数和例子数方面有所不同，而且是不平衡的。2)只有测量数据集内的泛化。然而，我们最终追求的模型可以推广到全新的分布(例如，数据集)。3)在形成情节时忽略类与类之间的关系。具体来说，狗和椅子的粗粒度分类可能会比狗品种的细粒度分类带来不同的困难，目前的基准没有建立两者之间的区别。

META-DATASET旨在上述方向上改进之前的基准:它的规模明显更大，由不同数据分布的多个数据集组成; 它的任务创建由ImageNet和Omniglot的类结构通知;它引入了现实的阶级失衡;它改变了每个任务的类数和训练集的大小，从而测试了从极低水平开始学习的模型的鲁棒性。

本工作的主要贡献是:1)为训练和测试Few-shot学习者提供了一个更加真实、大规模和多样化的环境。2)流行模型的实验评估，以及一套结合元学习者推理算法和非情景训练的新基线。3)分析不同模型是否受益于更多的数据、异构训练源、预训练权重和元训练。4)一个新颖的元学习者，在元数据集上表现强劲。

2 Few-shot分类:任务制定和方法

任务的制定 Few-show分类的最终目标是生成一个模型，给定一个包含N个类的新学习集和几个标记示例(每类kc, c∈1，…N)，能够概括到那个情节中看不见的例子。换句话说，该模型从一个训练(支持)集S = {(x1, y1)， (x2, y2)，…， (xK, yK)} (K=c kc)，并在保留测试(查询)集Q=x1*,y1*,x2*,y2*,…,xT*,yT*上求值。每个例子(x, y)由一个输入向量x∈RD和一个类标签y∈{1，…N}。具有平衡训练集的集(即kc = k，∀c)通常被描述为“N-way, k-shot”集。评估集是通过从更大的类集Ctest中抽样N个类，并抽样每个类所需的示例数量来构造的。

一个不相交的类集合Ctrain可用于训练模型;请注意，这种训练的概念和Few-show学习片段中的训练是不同的。Few-show学习并没有规定利用Ctrain的具体程序，但一种常见的方法与模型训练和评估的条件相匹配(Vinyals等人，2016年)。换句话说，训练经常(但不总是)以章节式的方式进行。一些作者分别使用训练和测试来指代任何给定情节中发生的事情，使用元训练和元测试来指代使用Ctrain将模型变成一个能够快速适应的学习者，使用Ctest来评估其使用Few-show学习的成功程度。这种命名法强调了前面提到的元学习视角，但为了避免混淆，我们将采用另一种常见的命名法，将数据集的训练集和测试集称为支持集和查询集，将从Ctrain学习的过程简单地称为训练。我们用“元学习者”这个术语来描述一个被间歇性训练的模型，也就是说，它学会在多个从训练集Ctrain中采样的任务中学习。

Few-show分类的非情景方法 一种自然的非偶发方法只是简单地一次在所有训练类Ctrain上训练一个分类器，它可以通过一个神经网络参数化，该神经网络在顶部有一个线性层，每个类有一个输出单元。经过训练，该神经网络被用作嵌入函数g，将图像映射到有意义的表示空间中。使用这个模型进行Few-show学习的希望是，这个表示空间即使对于训练中不包括的类的例子也是有用的。然后还需要定义一个算法，在任务图像的这些表示上执行Few-show分类。我们考虑了该算法的两种选择，产生该基线的“k-NN”和“Finetune”变体。给定一个测试集，“k-NN”基线将每个查询示例分类为其“最接近的”支持示例所属的类。在学习到的嵌入空间中，用欧几里得距离或余弦距离来衡量接近度;我们把它当作超参数。另一方面，“Finetune”基线使用给定测试集的支持集在嵌入g之上训练一个新的“输出层”，并可选地对这些嵌入进行微调(另一个超参数)，以便在相关任务的N个新类之间进行分类。

“Finetune”基线的一种变体最近变得流行起来:baseline ++ (Chen等人，2019)，最初的灵感来自于Gidaris和Komodakis (2018);祁等(2018)。它使用“余弦分类器”作为最后一层(在进行点积之前进行2归一化嵌入和权重)，在非情景训练阶段和测试情景评估中都是如此。我们在我们的代码库中加入了这个想法，通过添加一个超参数，可选地启用为“k-NN”(仅用于训练)和“Finetune”(两个阶段)基线使用余弦分类器。

用于Few-show分类的Meta-Learners 在情景设置中，为了从几个示例学习构建分类器，对模型进行端到端训练。我们选择使用匹配网络(Vinyals等人，2016年)、关系网络(Sung等人，2018年)、原型网络(Snell等人，2017年)和模型不可知论元学习(MAML, Finn等人，2017年)进行实验，因为它们涵盖了一组不同的Few-show学习方法。我们还在上述两个模型的启发下引入了一种新的元学习者。

在每个训练集中，情景模型为每个查询示例x * Q计算其标签py*∣x*,S的分布，其条件是支持集S，并允许通过梯度下降来训练这个微分参数化的条件分布。通过对支持集的条件作用的实现方式来区分不同的模型。在所有情况下，查询集上的性能驱动元学习器权重的更新，其中包括(有时只包括)嵌入权重。我们将在下面简要介绍每种方法。

典型的网络 原型网络为每个类构造一个原型，然后将每个查询示例分类为原型在欧氏距离下与其“最近”的类。更具体地说，查询示例x *属于类k的概率定义为:

其中ck是类k的“原型”:类k的支持示例嵌入的平均值。

匹配网络 匹配网络(以最简单的形式)将每个查询示例标记为支持标签的(余弦)距离加权线性组合:

其中1A是指标函数，α(x *， xi)是g(x *)和g(xi)之间的余弦相似度，对所有支持例xi进行softmax归一化，其中1≤i≤|S|。

关系网络 关系网络通常由一个嵌入函数g和一个由一些附加神经网络层参数化的“关系模块”组成。他们首先使用g嵌入每个支持和查询，并通过平均支持嵌入为每个类c创建一个原型pc。每个原型pc与每个嵌入的查询连接起来，并通过关系模块输出一个数字[0,1]，表示该查询属于类c的预测概率。然后将查询损失定义为该预测与(二进制)基本真理比较的均方误差。g和关系模块都经过训练，以使这种损失最小化。

MAML MAML在嵌入函数g(·;θ)，并将查询示例分类为

其中输出层参数W’和b’以及嵌入函数参数θ’是从初始参数值(b, W， θ)开始，通过对支持集S进行少量集内训练步骤获得的。该模型通过集内梯度下降过程将查询集损失反向传播到(b, W， θ)来训练。这通常需要计算二阶梯度，而获取二阶梯度的代价非常昂贵(无论是在时间还是内存方面)。由于这个原因，我们经常使用一种近似方法，从而忽略集内下降步骤的梯度。这个变体被称为一阶MAML (fo-MAML)，并在我们的实验中使用。我们确实尝试使用全订单版本，但发现它昂贵得不切实际(例如，它经常导致内存不足的问题)。

此外，由于在我们的设置中，方法的数量在章节之间是不同的，b, W被设置为零，并且不进行训练(即，b’, W’是在章节内梯度下降初始化为0的结果)，只留下θ进行训练。换句话说，MAML专注于学习嵌入网络的集内初始化θ，以便快速适应新任务。

引入Proto-MAML 我们介绍了一种新的元学习器，它结合了原型网络和MAML的互补优势:前者的简单归纳偏差对very-few-shot学习明显有效，后者的灵活适应机制。

正如Snell等人(2017)所解释的那样，原型网络可以被重新解释为应用于学习表示g(x)的线性分类器。欧几里得（Euclidean）距离平方的使用意味着输出对数表示为

其中常量是一个类无关的标量，可以忽略，因为它保持输出概率不变。因此，等价线性层的第k个单位具有权重Wk，·= 2ck和偏差bk =−||ck||2，它们都是关于θ可微的，因为它们是g(·;θ)。

我们将(fo-) prototype -MAML称为(fo-)MAML模型，其中每个章节的任务特定线性层由上面定义的原型网络等效权值和偏差初始化，然后在给定的支持集上照常优化。当计算θ的更新时，我们允许梯度通过原型网络等效线性层初始化。我们表明，这种简单的修改显著地帮助优化了该模型，并在META-DATASET上大大优于vanilla fo- MAML。

3、元数据集:一个新的few-shot分类基准

元数据集旨在提供一个环境，以衡量在现实的少镜头分类任务的进展。我们的方法是双重的:1)改变数据2)改变任务的表述(即如何生成片段)。下面的部分将详细描述这些修改。该代码是开源的，可以公开使用。

3.1 META-DATASET’S的数据

META-DATASET’S的数据比之前的任何基准测试都要大得多，并且由多个现有数据集组成。这促使我们研究元学习者如何利用不同来源的数据，并允许我们评估更具有挑战性的泛化问题，以全新的数据集。具体来说，元数据集利用了以下10个数据集的数据: ILSVRC-2012 (ImageNet, Russakovsky et al, 2015), Omniglot (Lake et al, 2015), Aircraft (Maji et al, 2013), CUB-200-2011 (Birds, Wah et al, 2011), Describable Textures (Cimpoi et al, 2014), Quick Draw (Jongejan et al, 2016), Fungi (Schroeder & Cui, 2018), VGG Flower (Nilsback & Zisserman, 2008), Traffic Signs (Houben et al, 2013) and MSCOCO (Lin et al, 2014). 之所以选择这些数据集，是因为它们是免费和容易获得的，跨越了各种可视化概念(自然的和人为的)，并且在类定义的细粒度方面有所不同。附录中提供了关于这些数据集的更多信息。为了确保集与现实分类问题相对应，元数据集中生成的每个集使用来自单个数据集的类。此外，这些数据集中的两个，Traffic Signs和MSCOCO，是完全保留用于评估的，这意味着它们中的任何类都不参与训练集。其余的部分为每个类的培训、验证和测试划分贡献了一些类，大约占70% / 15% / 15%的比例。其中两个数据集，ImageNet和Omniglot，拥有我们在META-DATASET中利用的类层次结构。对于每个数据集，分割的组成都可以在链接2中找到。

ImageNet ImageNet由82,115个“同义词集”组成，也就是WordNet本体的概念，它为它的同义词集提供了“is-a”关系，因此在它们之上定义了一个DAG。META-DATASET使用为ILSVRC 2012分类挑战选择的1K同步集，并为它定义了一个新的类分离和一个从它中采样类的新过程，以创建集，两者都根据其类层次结构进行通知。

具体地说，我们构造了一个总体DAG的子图，它的叶是ILSVRC2012的1K类。然后我们将这个子图“切”成三部分，用于训练、验证和测试分割，这样叶子之间就没有重叠了。为此，我们选择“carnivore”和“device”分别作为验证子图和测试子图的根。从“carnivore”和“device”可到达的叶子分别构成验证类和测试类集。所有剩下的叶子组成训练班。这种分割方法确保了训练类在语义上不同于测试类。我们最终得到了712个训练，158个验证和130个测试类，大致遵循了标准的70 / 15 / 15(%)分割。

Omniglot 该数据集是前面提到的fow-shot分类的既定基准之一。然而，与扁平化并忽略其字母和字符的两级层次结构的常见设置相反，我们允许它影响META-DATASET中的集类选择，从而产生更细粒度的任务。我们还使用Lake等人(2015)提出的原始分割:“background”和“evaluation”字母(所有字符)分别用于训练和测试。但是，我们从“background”集合中保留最小的5个字母用于验证。

3.2数据集抽样

在本节中，我们将概述META-DATASET用于采样剧集的算法，包括用于ImageNet和Omniglot类采样的分层感知程序，以及产生可变镜头和方式的现实不平衡剧集的算法。为给定分割而对某集进行抽样的步骤如下:步骤0)对数据集D进行统一抽样;步骤1)从分配给请求分割的类D的类中抽样一组类C;步骤2)从C中抽样支持和查询示例。

第一步:采样本集的class设置根据选择的数据集不同，此过程也不同。对于没有已知类组织的数据集，我们从范围[5,MAX-CLASSES]中统一抽样“方式”，其中MAX-CLASSES要么是50，要么是尽可能多的。然后，我们从给定数据集的请求类分割中，统一地随机抽样许多类。ImageNet和Omniglot使用类结构感知的过程，概述如下。

ImageNet类抽样 我们采用一种分层感知的抽样过程:首先，从给定分割的DAG中统一抽样一个内部(非叶)节点。选择的类集就是由该节点(或者它的随机子集，如果超过50)张成的叶集。我们防止过于接近根的节点被选择为内部节点，附录中有更详细的解释。这个过程支持创建不同程度细粒度的任务:内部节点的高度越大，结果集的粗粒度就越高。

Omniglot类抽样我们首先从所选的字母分割(训练、验证或测试)中均匀随机抽样一个字母，从而对Omniglot中的类进行抽样。然后，使用与其他数据集相同的限制，对剧集的“方式”进行均匀随机抽样，但注意抽样的数量不要超过所选字母的字符数量。最后，该字母的规定数量的字符被随机抽样。这确保了每一集都呈现出字母内的细粒度分类。

第二步:选取这一集的例子 在已经选择了一组类之后，从这些类中选择示例来填充某一集可以分为三个步骤。我们在这里提供了一个高层次的描述，并在附录中使用附带的公式进行详细说明。

步骤2a:计算查询集大小 查询集是类平衡的，反映了这样一个事实:我们同样关心在一个集的所有类上良好地执行。每个类的查询图像的数量被设置为一个数字，这样所有选择的类都有足够的图像来提供这个数字，并且仍然有大约一半的图像可以添加到支持集(在后面的步骤中)。每个类最多10张图片。

步骤2b:计算支持集大小 我们允许每个选择的类向支持集贡献最多100个剩余的示例(也就是说，不包括添加到查询集的示例)。我们将剩余的数字乘以从区间(0,1)中均匀采样的标量，以便即使在有多个图像可用的情况下也能生成“少拍”片段，因为我们也对研究光谱的这一端感兴趣。但是，我们强制每个选择的类都有支持集中至少一个图像的预算，并且我们将支持集的总大小限制为500个示例。

步骤2c:计算每个类的样本 我们现在讨论如何在参与的类中分配上述选择的总支持集大小。一个给定的选定类将占用的支持集的非归一化比例是该类在数据集中的图像总数的一个噪声版本。这种设计选择的目的是希望获得现实的类比，假设数据集类统计信息是对应类的实际外观统计信息的合理近似值。我们确保每个类在支持集中至少有一个图像，并根据上述规则分配其余的图像。

在这些步骤之后，我们通过均匀随机地选择每个选定类的指定数量的示例来填充支持集和查询集，从而完成集的创建过程。

4相关工作

在这项工作中，我们在元数据集上评估了四个元学习者，我们认为这些元数据集捕获了良好的既定模型的多样性。在META-DATASET上评估其他少镜头分类器超出了本文的范围，但我们将在下面讨论一些附加的相关模型。

与MAML类似，有些训练元学习者快速适应新任务(Ravi & Larochelle, 2017;蒙克达莱、尤宇，2017;Rusu等，2019;Y oon等人，2018)。其他的则与原型网络相关，通过学习一种表示法，可以在某种形式的分类器上执行可微训练(Bertinetto等人，2019;吉达里斯和科莫达基斯，2018年;Oreshkin等人，2018)。其他与匹配网络有关，因为它们使用图神经网络(Satorras & Estrach, 2018)或注意机制(Mishra et al, 2018)在支持和查询示例对之间执行比较。最后，一些人利用了记忆增强的循环网络(Santoro等人，2016年)，一些人学会了执行数据增强(Hariharan & Girshick, 2017年;Wang et al, 2018)在few-shot学习设置中，一些人从在few-shot设置中学习到的参数中学习预测large-shot分类器的参数(Wang & Hebert, 2016;Wang et al, 2017)。与Proto-MAML相关的是maml++ (Antoniou等人，2019)，它由MAML的一系列调整组成，如多重元训练的内循环学习率和导数阶退火。prototype - maml修改了输出权值初始化方案，并可以与这些调整相结合。

最后，META-DATASET与其他近期的图像分类基准相关。CVPR 2017视觉领域十项全能挑战赛在10个不同的数据集上训练一个模型，其中许多数据集都包含在我们的基准测试中，并衡量其对相同数据集的泛化能力，但不衡量对新类(或数据集)的泛化能力。Hariharan & Girshick(2017)提出了一种基准测试，在该基准测试中，模型从某些基础ImageNet类获得丰富的数据，并以一种不损害其基础类知识的方式在少量学习的新ImageNet类上进行测试。Wang等人(2018)在该基准的基础上提出了一种新的评估协议。Chen等人(2019)利用CUB数据集(Wah等人，2011年，也在我们的基准测试中介绍)和mini-ImageNet和CUB之间的跨域传输研究了细粒度的少镜头分类。使用CIFAR-100也提出了更大规模的少炮分类基准(Krizhevsky等人，2009;Bertinetto等人，2019;Oreshkin等人，2018)、分级imagenet (Ren等人，2018)和ImageNet-21k (Dhillon等人，2019)。与这些相比，META-DATASET包含了在少镜头学习背景下最大的多样化数据集，另外还附带了一种算法，用于从该数据创建学习场景，我们认为这些场景比之前的更现实。

5实验

训练过程 META-DATASET没有规定从训练数据中学习的过程。在这些实验中，本着匹配训练和测试条件的精神，我们通过训练片段来训练元学习者，使用的采样算法与我们在META-DATASET的评估片段使用的算法相同，如上所述。下一集的样本集的选择是随机统一的。训练非情景基线以解决由于“连接”所有数据集的训练类而产生的大型分类问题。

效果另一种设计选择是只在ImageNet(验证分割)上执行验证，忽略其他数据集的验证集。这个选择背后的理由是，众所周知，ImageNet上的性能是不同数据集上性能的一个很好的代理。我们使用这种验证性能来选择我们的超参数，包括主干架构、图像分辨率和特定于模型的参数。我们将在附录中进一步描述这些内容。

预训练 我们给每个元学习者机会，根据在ImageNet上训练的k-NN基线模型收敛到的嵌入权值初始化其嵌入函数。我们将从零开始或从这个初始化开始的选择视为超参数。为了与基线进行比较，我们允许非情景模型也从这个初始化开始。这对于在所有数据集上进行训练的基线来说尤其重要，因为它提供了从imagenet预先训练的权重开始的机会。

主要结果 表1显示了在仅使用imagenet或所有数据集训练后，每个模型在每个数据集的测试集上的准确性。在这两种情况下，交通标志和MSCOCO都不用于培训，因为它们是用于评估的。我们建议使用每种方法的平均(在数据集上)排名作为我们的度量进行比较，其中越小越好。如果一个方法的准确率最高，那么它的排名是1，如果准确率第二，那么它的排名是2，依此类推。如果两个模型的准确率最好，它们都得到1.5，依此类推。我们发现，根据这一指标，fo- prototo - maml是表现最好的，原型网络也表现强劲，而Finetune基线显然是一个有价值的对手3。我们在附录中包含了这些表的更详细版本，显示置信区间和每个数据集的排名。

训练对所有数据集的影响，而不仅仅是ImageNet 对所有数据集进行训练(训练分割)是否比只对ImageNet进行训练(训练分割)更能提高泛化能力是一件很有趣的事情。具体来说，虽然我们可能期望对更多数据进行训练有助于提高泛化能力，但这是否适用于异构数据还是一个经验问题。我们可以通过比较表1的顶部和底部结果集之间的每个模型的性能来检验这一点，对应于两个训练源(分别只针对ImageNet和所有数据集)。为了方便起见，图1在barplot中可视化了这种差异。值得注意的是，在《Omniglot》、《Quick Draw》和《Aircraft》中，我们观察到所有来源的训练都有显著的增长。

这对于图像与ImageNet有显著差异的数据集来说是合理的:我们确实希望从这些数据集(训练类)的一些图像的训练中获得很大的好处。有趣的是，在其余的测试源上，我们并没有观察到全数据集训练的效果。这一结果促使人们研究利用异构数据的方法，将其泛化为不同来源的不可见类。我们的实验表明，在大多数情况下，在训练数据集中“天真地”学习(例如，随机地选择下一个数据集来统一使用)不会自动地带来预期的好处。

方法和样本分析 我们进一步研究了精度作为“方式”的函数(图2a)和类精度作为“shots”的函数(图2b)。不出所料，我们发现难度随着方式的增加而增加，性能下降。另一方面，每个类的例子越多，对该类的正确分类就越容易。然而，有趣的是，并不是所有的模型都能从更多的数据中以同样的速度受益:原型网络和fo- prototype - maml在镜头极低的情况下优于其他模型，但饱和速度更快，而Finetune基线、匹配网络和fo-MAML在镜头增加时以更高的速度提高。在对所有数据集进行分析时，我们得出了相同的结论，并将这些图包含在附录中。正如附录中所讨论的，我们建议在报告元数据集上的结果时包括这种分析，而不是在主表上。其基本原理是，我们不仅对平均表现良好感兴趣，而且对在不同规格的测试任务下表现良好感兴趣。

训练的效果 在图3a和3b中，我们量化了使用ImageNet上预训练的k-NN基线的权重初始化元学习者嵌入网络的好处，而不是从头开始他们的情景训练。我们发现这个过程通常是有益的，无论是仅针对imagenet的训练还是针对所有数据集的训练。似乎这种受imagenet影响的初始化驱动元学习者朝着在自然图像测试数据集上产生更高性能的解决方案发展，特别是ILSVRC、鸟类、真菌、花朵和MSCOCO。

不过，它在Omniglot和Quick Draw等显著不同的数据集上的表现并不令人惊讶。这些发现表明，除了训练数据源的选择(例如，如前所述，仅使用ImageNet或所有数据集)，初始化方案的选择也会在很大程度上影响最终的解决方案，从而影响在测试时将生成的元学习器应用于不同数据源的适用性。最后，一个有趣的观察是，MAML似乎从预训练的初始化中获益最多，这可能说明了与该模型相关的优化的难度。

meta-training效果我们建议将每个元学习者的推理算法从它是元学习的事实中分离出来，以评估元学习在元数据集上的好处。为此，我们提出了一组新的基线:“原型网络推理”、“匹配网络推理”和“foo - prototo - maml推理”，使用各自元学习者的推理算法进行非偶发性训练，但偶发性评估(用于验证和测试)。对于这些元学习者来说，这是可能的，因为除了明确需要间歇性学习的嵌入函数外，他们没有任何额外的参数(例如，与关系网络的关系模块相反)。在图3c和3d中，我们将每个仅推理方法与对应的元学习器进行比较。我们发现这些基线是强大的:当只在ImageNet上训练时，我们通常可以观察到元学习对嵌入权值的小好处，但当在所有数据集上训练时，这种好处通常会消失，在这种情况下，元学习有时实际上是有害的。我们发现这个结果非常有趣，我们相信它强调了研究如何跨多个不同来源进行元学习的必要性，这是META-DATASET提出的一个重要挑战。

Fine-grainedness分析我们使用ILVRC-2012来调查细粒度任务比粗粒度任务更难的假设。我们的研究结果表明，虽然测试子图不够丰富，不足以显示任何趋势，但列车子图上的表现似乎确实符合这一假设。我们在附录中包括这个分析的实验设置和结果。

6结论

我们为few-shot分类引入了一个新的大规模、多样化和逼真的环境。我们相信，我们对META-DATASET上各种模型的探索为未来跨异构数据的元学习工作揭示了有趣的方向:尚不清楚创建训练集的最佳策略是什么，最合适的验证创建和最合适的初始化是什么。当在多个数据源上训练时，当前的模型并不总是会改进，跨数据集的元学习也并不总是有益的。目前的模型对测试片段中的数据量也不是很稳健，每个模型都在不同的部分表现出色。我们相信，解决这些缺点构成了向前推进的一个重要研究目标。

作者的贡献

Eleni、Hugo和Kevin提出了基准测试的想法和需求。Eleni开发了项目的核心，与Tyler和Kevin一起进行实验设计和管理，并进行实验分析。Carles、Ross、Kelvin、Pascal、Vincent和Tyler通过添加数据集帮助扩展了基准。Eleni、Vincent和Utku分别贡献了原型网络、匹配网络和关系网络实现。Tyler实现了基线、MAML(与Kevin一起)和prototype -MAML模型，并更新了主干以支持它们。创作工作主要由Eleni负责，Hugo、Vincent和Kevin也有贡献，Tyler和Pascal则负责可视化。Pascal和Pierre-Antoine致力于代码组织、效率和开源，Pascal和Vincent优化了数据输入管道的效率。Pierre-Antoine负责监督代码开发过程并审查大部分更改，Hugo和Kevin负责监督研究的总体方向。

[论文翻译]META-DATASET: A DATASET OF DATASETS FOR LEARNING TO LEARN FROM FEW EXAMPLES