一句话总结:
分类问题中的两大难题:
1.类别不平衡
2.标注数据少,半监督学习
这篇文章,将这两个问题都包含进来了,那么看看作者是如何处理这两大难题。
长尾分布(Long-Tailed Distribution)
自然界中收集的样本通常呈长尾分布,即收集得到的绝大多数样本都属于常见的头部类别(例如猫狗之类的),而绝大部分尾部类别却只能收集到很少量的样本(例如熊猫、老虎),这造成收集得到的数据集存在着严重的类别不平衡问题(Class-Imbalanced),从而使得训练得到的模型严重的过拟合于头部类别。
参考: