统计|如何处理数据处理中的缺失值？

其他 2021-11-21 06:32:39 阅读次数: 0

所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理，以得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后，缺失值会造成系统丢失大量有用信息，系统表现出不确定性，也会使得挖掘混乱，处理缺失值方法如下：

不处理
删除
数据插补

1. 不处理

采用不精确信息处理数据的不完备性已得到了广泛的研究，不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。

2.删除

分为成对删除与成列删除。成列删除会减少样本数量，该方法适用于某些样本有多个特征值存在缺失值，且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除，适用于对数据分析的目标影响不大的情况下进行删除。

3.数据插补

人工补齐：自己想怎么补就怎么补
特殊值补：比如用null值
平均值补：先求个平均值，然后填充缺失值
插值法：利用数学方法计算缺失值的估计值进行插值

另外插补的有：

热卡填充(就近填充)
k最近邻算法
使用所有可能的填充
组合完整化法
回归
期望值最大化法
多重填补
C4.5法

参考文献

康华强著高等数学-基于pytho实现.北京：北京工业出版社，2020.7

猜你喜欢

转载自blog.csdn.net/m0_37149062/article/details/121106782

统计|如何处理数据处理中的缺失值？

大数据处理（一）如何处理数据集中的缺失值

机器学习如何处理数据中的缺失值

数据的预处理基础：如何处理缺失值

python—如何处理文件中的缺失值

机器学习-如何处理数据集中的缺失值

数据处理————缺失值处理

Python 数据处理缺失值处理

数据处理—缺失值处理

数据处理之缺失值处理

［每日问答］缺失值如何处理？

Xgboost如何处理缺失值

随机森林如何处理缺失值？

机器学习中如何处理缺失数据？

机器学习中的特征工程和数据预处理技术是什么？如何处理缺失值和异常值？

Python中缺失值分类及Pandas中缺失数据处理函数

数据中缺失值的处理

【机器学习】【数据处理】Pandas 处理缺失值

数据处理之缺失值处理（R语言）

数据处理：1.缺失值处理

python笔记9:数据处理之缺失值处理

详解机器学习中的数据处理（一）——缺失值处理（附完整代码）

stata如何处理结构方程模型（SEM）中具有缺失值的协变量

如何处理深度学习中的缺失值和异常值？

【数据处理】如何处理机器学习中的非均衡数据集？

【数据分析】缺失数据如何处理？pandas

Pandas缺失数据处理

Pandas中时间序列缺失如何处理？

统计（数据处理）

数据分析中的缺失值处理

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)