一.基本概述
数据探索与数据清洗没有严格的先后顺序,经常在一个阶段进行。
数据探索
- 数据质量分析(与数据清洗密切相关)
- 数据特征分析(分布/对比/周期/相关性/描述性统计分析/常见统计量等)
数据清洗
- 缺失值处理
- 异常值处理
二.数据探索
1.描述性统计分析
定性变量
- 频率
- 频数
定量变量
- 集中趋势的度量:均值、众数、中位数、四分位
- 变异程度的度量:极差、方差、标准差
- 相对位置的度量:标准得分
- 偏度和峰度:
2.分布分析
极差
组距:极差 / 组数
直方图
三.数据清洗-缺失值
四.数据清洗-异常值