很多数情况下,正负样本是不均衡的。如健康人和患某种疾病的患者,电商的用户点击过或者购买过的商品和没有行为的商品
而大多数模型对正负样本比是敏感的(比如LR)
正负样本不均衡的处理办法:
正样本 >> 负样本,且正样本和负样本量都挺大,将数据量多的样本采用下采样的方式(downsampling)
正样本 >> 负样本,且正样本和负样本量不大:
1)采集更多的数据
2)上采样(比如图像识别中的镜像和旋转)
3)修改损失函数
很多数情况下,正负样本是不均衡的。如健康人和患某种疾病的患者,电商的用户点击过或者购买过的商品和没有行为的商品
而大多数模型对正负样本比是敏感的(比如LR)
正负样本不均衡的处理办法:
正样本 >> 负样本,且正样本和负样本量都挺大,将数据量多的样本采用下采样的方式(downsampling)
正样本 >> 负样本,且正样本和负样本量不大:
1)采集更多的数据
2)上采样(比如图像识别中的镜像和旋转)
3)修改损失函数