【机器学习】关于样本不均衡问题 - 代码天地

【机器学习】关于样本不均衡问题

编程语言 2018-07-07 11:09:30 阅读次数: 0

参考：https://www.jianshu.com/p/be343414dd24

问题解决难度：

大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡

方法一：采样

采样分为上采样和下采样：上采样会把小众样本复制多份，这样容易造成过拟合问题，解决方法是在重复样本中加入轻微的随机扰动

下采样是随机选取大众类，使其和小众类有相同的样本，这样会造成模型的不完整，解决方法是多次下采样（放回采样，这样产生的训练集才相互独立）产生多个不同的训练集，进而训练多个不同的分类器，通过组合多个分类器的结果得到最终的结果

方法二：数据合成

利用已有样本生成更多样本，常见方法是SMOTE，简单来说就是利用小样本在特征空间的相似性生成新样本

方法三：加权

对不同类别分错的代价不同，小样本大权重，分错类会有大惩罚

方法四：一分类

对于正负样本极不平衡的场景，我们可以换一个完全不同的角度来看待问题：把它看做一分类（OneClass Learning）或异常检测（NoveltyDetection）问题。

如何选择

1、在正负样本都非常之少的情况下，应该采用数据合成的方式；

2、在负样本足够多，正样本非常之少且比例及其悬殊的情况下，应该考虑一分类方法；

3、在正负样本都足够多且比例不是特别悬殊的情况下，应该考虑采样或者加权的方法。

4 、采样往往比加权好，如果计算资源足够且小众类样本足够多的情况下使用上采样，否则使用下采样

猜你喜欢

转载自blog.csdn.net/CSDN_Black/article/details/80949027

【机器学习】关于样本不均衡问题

机器学习中样本不均衡的问题

机器学习-样本不均衡问题处理

【机器学习】样本不均衡问题的处理方法

机器学习——样本不均衡学习

机器学习----正负样本不均衡

样本不均衡问题

【机器学习】处理样本不均衡问题的方法，样本权重的处理方法及代码

机器学习——样本不均衡的处理方式

机器学习常见问题及解决方案——正负样本不均衡

如何解决机器学习中训练样本不均衡问题

机器学习中如何处理样本不均衡问题

样本不均衡

样本不均衡问题调研

解决样本不均衡问题-SMOTE

解决样本不均衡问题

机器学习-二分类SVC中的样本不均衡问题：重要参数class_weight

机器学习超详细实践攻略(23)：三板斧干掉样本不均衡问题之3——通过集成学习方法解决样本不均衡

机器学习超详细实践攻略(22)：三板斧干掉样本不均衡问题之2——对正负样本设置不同权重

如何处理训练样本不均衡的问题

样本不均衡问题——smote算法源码实现

Python【图解】样本不均衡问题及采样策略

如何解决训练中的样本不均衡问题

使用 WeightedRandomSampler 解决数据样本不均衡的问题

样本不均衡问题（待消化整理）

SMOTE 过采样，解决正负样本不均衡问题

机器学习超详细实践攻略(11)：三板斧干掉样本不均衡问题之1——过（欠）采样

样本不均衡解决办法

样本不均衡对模型的影响

机器学习 - 如何解决不均衡样本的分类问题

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)