学习笔记（五）数据预处理之数据归约

数据归约：原始数据用数据集的归约表示，它小得多，但仍接近于保持原始数据的完整性。也就是说，在归约后的数据集上挖掘将更有效，仍然产生相同的分析结果。

1数据归约包括维归约、数量归约和数据压缩。

维归约：减少所考虑的随机变量或属性的个数。方法有小波变换、主成分分析，把原始数据变换或投影到较小的空间。属性自己选择是一种维归约方法，其中不相关、弱相关或冗余的属性或维被检测或删除。

数量归约：用替代的、较小的数据表示形式换原始数据。这些技术可以是参数或者非参数的。对于参数方法而言，使用模型估计数据，使得一般只需要存放模型参数而不是实际数据（离群点需存放）。非参数方法包括：直方图、聚类、抽样和数据立方体聚类。

数据压缩：使用变换，一遍得到原始数据的归约或“压缩”表示。如果数据可以在压缩后的数据重构，而不损失信息，则该数据归约被称为无损的。如果是近似重构原数据，称为有损的。

2小波变换：离散小波变换（DWT）是一种现行信号处理技术，勇于数据向量X时，将他变换成不同的数值小波系数向量 $X{}'$ .两个向量具有相同的长度。每个元组被看作一个n维数据向量。

DWT与离散傅里叶变换（DFT）有密切关系，DFT是一种涉及正弦和余弦信号处理技术。一般地，DWT是一种更好的有损压缩，提供原始数据更准确的近似，切且需要的空间更小。

只有一种DFT但是有若干族DWT。离散小波变换的一般过程使用一种金字塔算法，在每一次迭代时将数据减半，故计算速度快：（1）输入数据向量长度L必须是2的整数幂。必要时，通在数据向量后添加0，这一条件即可满足（L大于等于n）（2）每个变换涉及应用两个函数。第一个使用某种数据光滑，如求和或加权平均。第二个进行加权差分，提取数据细节特征。（3）两个函数作用于X中的数据点对，即作用于所有的测量对（ $x_{2i},x_{2i+1}$ ）这导致两个长度为L/2的数据集。一般而言，特们分别代表数据光滑后的版本或低频版本和它的高频内容。（4）两个函数递归地作用于前面循环得到的数据集，直到得到的结果数据集的长度为2。（5）由以上迭代得到的数据集中选择的值被指定为数据变换的小波系数。

3主成分分析PCA：（又称Karhunen-Loeve或K-L方法）搜索k个最能代表数据的n维正交向量，其中 $k\leq n$ 。这样原数据投影到一个小得多的空间上导致维归约。PCA常常能够揭示先前未曾察觉的联系，并因此允许解释不寻常的结果: (1）对输入数据规范化，使得每个属性都落入相同的区间。（2）PCA计算k个标准正交向量，作为规范化输入数据的基。这些是单位向量，每一个都垂直于其他向量。这些向量称为主成分，输入数据是主成分的线性组合。（3）对主成分按照‘重要性’或强度降序排列。本质上充当数据的新坐标系，提供关于方差的重要信息。对于坐标轴进行排序，第一个坐标轴显示数据的最大方差，第二个显示数据的次大方差，如此次下去（4）主成分可以根据“重要性”降序排列，因此可以通过去掉较弱的成分（方差较小的）来归约数据。

PCA可以用于有序和无序的属性，并且可以处理稀疏和倾斜的数据。与小波变换相比，PCA更好的处理稀疏数据，而小波变换更适合高维数据。

4属性子集选择：通过删除不相关或者冗余属性（或维）减少数据量。基本启发式方法包括以下技术：（1）逐步向前选择（2）逐步向后删除(3)逐步向前选择和逐步向后删除的组合（4）决策树归纳

5回归和对数线性模型：参数化数据归约

（简单）线性回归，对数据建模使之拟合到一条直线。 $y=wx+b$ 其中，假定y的方差是常量。在数据挖掘中，回归系数可以用最小二乘法求解。多元回归是线性回归的扩展。对数线性模型近似离散的多维概率分布。给定n维元组的集合，我们可以把每个元组看作n维空间的点。基于维组合的一个较小子集，估计多维空间中每个点的概率。

6直方图：使用分箱来近似数据分布，是一种流行的数据归约形式。对于存放具有高频率的离群点，单桶值是有用的。

7聚类：把数据元组看作对象。它将对象划分为群或簇，使得一个簇中的对象相互“相似”，而与其他簇中的对象“相异”。通常，相似性基于距离函数，形心距离是另一种度量。

8抽样：无放回简单随机抽样（SRSWOR）、有放回简单随机抽样（SRSWR）、簇抽样、分层抽样

9数据立方体聚集：在最低抽样层创建的立方体称为基本方体。基本方体应当对应于感兴趣的个体，最高层抽象立方体称为顶点立方体（例如汇总值）。

学习笔记（五）数据预处理之数据归约

猜你喜欢