《数据挖掘》技术与概念
第3章 数据预处理
3.1 数据预处理:概述
3.1.1 why
现实世界第数据库极易受噪声、确实值和不一致数据的侵扰。
数据质量:准确性、完整性、一致性、时效性、可信性、可解释性和可存取性。
3.1.2 数据预处理的主要任务
- 数据清理
- 数据集成 集成多个数据库、数据立方体或文件(冗余,不一致)
- 数据规约 降低数据集规模,不损害数据挖掘的结果。分为维规约和数值规约
维规约,使用数据编码方案,以便得到原始数据的简化或压缩表示。例如,数据压缩技术、属性子集选择和属性构造
数值规约,使用参数模型或非参数模型,用较小的表示取代数据。 - 数据变换
3.2 数据清理
3.2.1 缺失值
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 使用属性的中心度量(中位数或均值等)填充缺失值
- 使用与给定元组属同一类的所有样本的属性均值或中位数
如果数据倾斜,中位数是刚好的选择 - 使用最可能的值填充缺失值
使用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定
(3)-(6)使数据由偏,填的值可能不正确,(6)最流行
3.2.2 噪声数据
噪声是被测量的变量的随机误差或方差。去掉噪声光滑数据的方法:
- 分箱
均值光滑
中位数光滑
箱边界光滑 - 回归 regression
可以用函数拟合数据来光滑数据 - 离群点分析
可以通过如聚类来检测离群点 - 其他:数据离散化和数据归约
3.2.3 数据处理作为一个过程
- 第一步:偏差检测
3.3 数据集成
3.3.1 实体识别问题
3.3.2 冗余和相关分析
- 标称数据的卡方分布相关检验
- 数值数据的相关系数
相关度为:
- 数值数据的协方差
可以简化计算为:
3.3.3 元组重复
去规范表
3.3.4 数据值冲突的检测与处理
- 数据的单位不同
- 数据属性在抽象层中不同
3.4 数据规约
3.4.1 数据规约概述
- 维规约,减少所考虑的随机变量或属性个数。包括小波变换,主成分分析,属性子集
- 数量规约,用替代的、较小的数据表示形式替换原数据