参考:https://www.jianshu.com/p/be343414dd24
问题解决难度:
大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡
方法一:采样
采样分为上采样和下采样:上采样会把小众样本复制多份,这样容易造成过拟合问题,解决方法是在重复样本中加入轻微的随机扰动
下采样是随机选取大众类,使其和小众类有相同的样本,这样会造成模型的不完整,解决方法是多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的训练集,进而训练多个不同的分类器,通过组合多个分类器的结果得到最终的结果
方法二:数据合成
利用已有样本生成更多样本,常见方法是SMOTE,简单来说就是利用小样本在特征空间的相似性生成新样本
方法三:加权
对不同类别分错的代价不同,小样本大权重,分错类会有大惩罚
方法四:一分类
对于正负样本极不平衡的场景,我们可以换一个完全不同的角度来看待问题:把它看做一分类(OneClass Learning)或异常检测(NoveltyDetection)问题。
如何选择
1、在正负样本都非常之少的情况下,应该采用数据合成的方式;
2、在负样本足够多,正样本非常之少且比例及其悬殊的情况下,应该考虑一分类方法;
3、在正负样本都足够多且比例不是特别悬殊的情况下,应该考虑采样或者加权的方法。
4 、采样往往比加权好,如果计算资源足够且小众类样本足够多的情况下使用上采样,否则使用下采样