学习笔记（三）数据预处理之数据清理

数据预处理

1概述。为了提高数据的质量，数据质量涉及准确性、完整性、一致性、时效性、可信性（反应多少数据是用户信赖的）和可解释性（反映数据是否容易理解）。数据预处理的主要步骤：数据清理、数据集成、数据归约和数据变换。

数据清理：例程通过填写缺失的值，光滑噪声数据、识别或删除离群点，并解决不一致性来“清理”数据。数据集成：集成多个数据库、数据立方体或文件。数据归约：得到数据的简化表示，它小但能够产生同样的分析结果。（包括维归约和数值归约）。规范化、数据离散化和概念分层产生都是某种形式的数据变换。

2数据清理。

数据清理：试图填充缺失值、光滑噪声并且识别离群点、纠正数据中的不一致。

缺失值的处理方法:

注意：缺失值并不意味着数据有错误。

噪声数据：是被测量的变量的随机误差或方差。，

“光滑”数据、去掉噪声的方法：

分箱：通过考察数据的“近邻”值来光滑有序数据值，通过分箱，来进行局部光滑。有：用箱均值光滑、用箱中位数光滑、用箱边界光滑（给定箱中的最大和最小值同样被视为箱边界）。一般而言，宽度越大，光滑效果越明显。
回归：用函数拟合数据来光滑数据。
离群点分析：可以通过聚类来检测。落在簇以外的被称为离群点。

许多数据光滑的方法也用于数据离散化和数据归约。

关于数据清理的总结：

第一步需要偏差检测，如何进行检测，需要用到元数据（关于数据的数据）。必须警惕编码不一致和数据表示不一致的问题。字段过载是另一种错误源，通常是由于：开发者将新属性的定义挤进已经定义的的属性未使用（位）部分。

根据唯一性规则（给定属性的每个值都必须不同于该属性的其他值）、连续性规则（属性的最低和最高值之间没有缺失值，并且所有的值必须是唯一的。例如，检验数）和空值规则（说明空白、问好、特殊符号或指示空值条件的其他串的使用，以及如何处理这样的值）考察数据。

帮助进行偏差检测的工具有：数据清洗工具（简单的领域知识）、数据审计工具（可以使用统计分析）、数据迁移工具（支持数据变换）、ETL（提取、变换、装入）工具允许在GUI说明变换。但是功能有限。

Potter’s Wheel、SQL等扩充和使用时非常有必要的，有效的表达数据清理的具体要求的算法。更好的进行偏差检测和数据变换（纠正偏差），随着对数据的了解和加深，不断更新元数据以反应这种知识很重要。

推荐阅读：数据挖掘概念与技术