所谓的数据清洗就是指对各种“脏数据”进行对应方式的处理,以得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。当数据中出现了缺失值之后,缺失值会造成系统丢失大量有用信息,系统表现出不确定性,也会使得挖掘混乱,处理缺失值方法如下:
- 不处理
- 删除
- 数据插补
1. 不处理
采用不精确信息处理数据的不完备性已得到了广泛的研究,不完备数据的表达方法所依据的理论主要有可信度理论、模糊集合论等等。
2.删除
分为成对删除与成列删除。成列删除会减少样本数量,该方法适用于某些样本有多个特征值存在缺失值,且存在缺失值的样本占整个集样本数量的比例不高的情形。
如果成对删除,适用于对数据分析的目标影响不大的情况下进行删除。
3.数据插补
- 人工补齐:自己想怎么补就怎么补
- 特殊值补:比如用null值
- 平均值补:先求个平均值,然后填充缺失值
- 插值法:利用数学方法计算缺失值的估计值进行插值
另外插补的有:
- 热卡填充(就近填充)
- k最近邻算法
- 使用所有可能的填充
- 组合完整化法
- 回归
- 期望值最大化法
- 多重填补
- C4.5法
参考文献
康华强著高等数学-基于pytho实现.北京:北京工业出版社,2020.7