二 数据1

数据类型,数据的质量,使数据适合挖掘的预处理步骤,根据数据联系分析数据,

2.1 数据类型

数据集:数据对象的集合
数据对象:记录,点,向量,模式,事件,案例,样本,观测,实体
描述数据对象基本特性:属性,一种,字段,特征,维

2.1.1 属性与度量

1.属性是什么?
在这里插入图片描述
在这里插入图片描述
2.属性类型;对应数值的性质
3.属性的不同类型:标称,序数,区间,比率
在这里插入图片描述
4.用值的个数描述属性:离散,连续
5.非对称属性:非对称的二元属性

2.1.2 数据集的类型

记录数据,基于图形的数据和有序数据
1.数据集一般特性:维度(维灾难,维规约),稀疏性,分辨率
2.记录数据:事物数据,数据矩阵,
3.基于图形的数据:带有对象间联系的数据,具有图形对象的数据
4.有序数据:时序数据,序列数据(无时间戳),空间数据
5.处理非记录数据

2.2 数据质量

2.2.1 数据测量和数据收集问题

1.测量误差和数据收集误差
2.噪声和伪像
噪声:测量误差的随机部分,鲁棒算法
伪像:确定性失真
3.精度,偏倚和准确率:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.离群点(异常)
5.遗漏值:删除,估计,忽略
6.不一致的值
7.重复数据

2.2.2关于应用的问题

时效性
相关性
关于数据的知识

猜你喜欢

转载自blog.csdn.net/DMU_lzq1996/article/details/83901453