数据类型,数据的质量,使数据适合挖掘的预处理步骤,根据数据联系分析数据,
2.1 数据类型
数据集:数据对象的集合
数据对象:记录,点,向量,模式,事件,案例,样本,观测,实体
描述数据对象基本特性:属性,一种,字段,特征,维
2.1.1 属性与度量
1.属性是什么?
2.属性类型;对应数值的性质
3.属性的不同类型:标称,序数,区间,比率
4.用值的个数描述属性:离散,连续
5.非对称属性:非对称的二元属性
2.1.2 数据集的类型
记录数据,基于图形的数据和有序数据
1.数据集一般特性:维度(维灾难,维规约),稀疏性,分辨率
2.记录数据:事物数据,数据矩阵,
3.基于图形的数据:带有对象间联系的数据,具有图形对象的数据
4.有序数据:时序数据,序列数据(无时间戳),空间数据
5.处理非记录数据
2.2 数据质量
2.2.1 数据测量和数据收集问题
1.测量误差和数据收集误差
2.噪声和伪像
噪声:测量误差的随机部分,鲁棒算法
伪像:确定性失真
3.精度,偏倚和准确率:
4.离群点(异常)
5.遗漏值:删除,估计,忽略
6.不一致的值
7.重复数据
2.2.2关于应用的问题
时效性
相关性
关于数据的知识