数据类型
1、属性:
属性是对象的性质或者特性,它因对象而异,或随着时间变化。
我们根据属性值的运算定义下面四种属性类型:
数据集的一般特性
1、维度:分析高维数据有时会陷入维灾难,数据预处理的一个重要动机就是减少维度。
2、稀疏性:有些数据集如果具有非对称特征的数据集(一个对象的大部分属性上的值都是0,出现非零属性值才是最重要的)。实际上稀疏性是一个优点,因为只有非零值才需要存储和处理,这将节省大量的计算时间和存储空间。
3、分辨率:分辨率太高,可能无法识别模式或者掩埋在噪声中,如果分辨率太低,可能模式无法出现。
数据质量
1、测量误差和数据收集错误
2、噪声(测量误差的随机部分)和伪象(确定性的失真)
3、精度、偏倚和准确率
4、离群点
5、遗漏值
6、不一致的值
7、重复数据
8、应用问题:时效性和相关性