图像长尾分布(Long-Tail Distribution)问题

图像长尾分布(Long-Tail Distribution)问题

Long-tail distribution problem in image datasets.

ImageNetCOCO等常用视觉数据集中,由于经过人工预筛选,图像中的不同目标类别的数量是接近的。而在实际的视觉应用中,数据集大多服从长尾分布(long-tail distribution),即少数类别(称为head class)占据绝大多数样本,多数类别(称为tail class)仅有少量样本。一个典型的长尾分布数据集(Open Brands商标数据集)如下图所示。

定义数据集的不平衡率(imbalance ratio)为类别的最大数量和最小数量之比。目前常用的一些长尾分布数据集如下:

  • CIFAR100-LT:对CIFAR100的每类训练样本下采样得到的,不平衡率可以取$10,50,100$;测试集保持不变。
  • ImageNet-LT:从ImageNet中按照Pareto分布采样得到,包含$1000$类别的$19$k张图像,最多的类别具有$1280$张图像,而最少的仅有$5$张图像࿰

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131672270