2.3数据预处理
2.3.1 聚集
聚集是将两个或多个对象合并成为单个对象。
2.3.2 抽样
抽样是选择数据对象子集进行分析的方法。
1.抽样方法:简单随机抽样;分层抽样
2.渐进抽样
2.3.2 维规约
1.维灾难
2.维规约的线性代数技术
2.3.4 特征子集选择
嵌入方法,过滤方法,包装方法
1.特征子集选择体系结构
2.特征加权
2.3.5 特征创建
1.特征提取:创建新的特征集
2.映射数据到新的空间:变换
3.特征构造:特征之间数学组合
2.3.6 离散化和二元化
1.二元化
2.连续属性离散化:非监督离散化,监督离散化
3.具有过多值的分类属性
2.3.7 变量变换
1.简单函数
2.规范化或标准化:使整个值的集合具有特定的性质
2.4 相似性和相异性的度量
2.4.1 基础
1.定义:
2.变换:相似度区间转换到[0,1],相似度和相异度之间的转化
2.4.2 简单属性之间的相似度和相异度
2.4.3 数据对象之间的相异度
距离:
2.4.4 数据对象之间的相似度
2.4.5 临近性度量的例子
1.二元数据的相似度度量
相似系数
简单匹配系数:
Jaccard系数:(非对称属性)
2.余弦相似度(处理非二元属性)
3.广义Jaccard系数
4.相关性
两个具有二元变量或连续变量的数据对象之间的相关性是对对象属性之间线性联系的度量。相关度[-1,1],线性关系的描述
皮尔森相关系数:
Bregman散度:一族具有共同性质的近邻函数。(没太懂用来干嘛的)
2.4.6邻近度计算问题
1.距离度量的标准化和相关性
属性具有不同的值域时如何处理问题。
2.组合异种属性的相似度
3,权值