-
训练样本不平衡
(1) 数据层面:上采样和下采样
上采样是指增加少样本类别的样本数量,如随机过采样、SMOTE多采样
但是这样相当于在训练集中添加了噪声,从而导致模型过拟合
下采样是指通过对多样本类别的样本进行有放回的随机抽样,从而与少样本类别的样本数量取得平衡。但这样做就丢掉了一部分原始样本,从而导致模型过拟合。
(2) 算法层面
选择对数据倾斜不敏感的算法:如随机森林
增加损失函数中少样本类别中样本的权值 -
测试样本不平衡
修改评估指标
【面试必备】之《样本不平衡》
猜你喜欢
转载自blog.csdn.net/qq_27577651/article/details/106787622
今日推荐
周排行