1. 聚集
概念:将两个或多个对象合并成单个对象。
优点:a.数据归约导致的较小数据集需要较少的内存和处理时间。
b.对象或属性群的行为通常比单个对象或属性的行为更加稳定。
缺点:可能丢失有趣的细节。
2.抽样
概念:选择数据对象子集进行分析。
优点:可以压缩数据量
3.维归约
优点:a.降低维度(数据属性的个数),提高算法效果。
b.降低数据挖掘算法的时间和内存需要。
维灾难:随着数据维度的增加,许多数据分析变得非常困难。
4.特征子集选择
概念:仅使用特征的一个子集。
提出原因:冗余和不相关的特征可能降低分类的准确率,影响所发现的聚类的质量。
5.特征创建
概念:可以由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息。
创建新属性方法:
- 特征提取:由原始数据创建新的特征集。
- 映射数据到新的空间:使用一种完全不同的视角挖掘数据可能揭示出重要和有趣的特征。(例如时域到频域的转换)
- 特征构造:原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法,在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用。
6.离散化和二元化
概念:某些数据挖掘算法,要求数据是分类属性形式,常常需要将连续属性变换成分类属性(离散化),并且连续和离散属性可能都需要变换成一个或多个二元属性(二元化)。
二元化例子:一个分类属性到三个二元属性的变换 3→011