-
随着IT向DT时代的转变,数据的重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着极其重要的角色。而对于被日益重视的数据,如何保障其质量是一个关注的话题;
-
数据质量是数据分析结论有效性和准确性的基础,也是一切的前提。如何保障数字质量,确保数据可用性时阿里数据仓库建设不容忽视的环节。
一、数据质量保障原则
-
从四个方面评估
-
-
完整性
-
准确性
-
一致性
-
及时性
-
-
1.完整性
-
-
完整性是指数据的记录和信息是否完整,是否存在缺失的情况。数据的却是主要包括了确实和记录中某个字段信息的却是,两者都会造成统计结果不准确,所以说完整性是数据质量的最基础的保障。如碧交易中每天支付订单数都在100W笔左右,如果某天支付订单突然下降1W笔,那么很可能是记录缺失。对于记录中某个字段信息的缺失,比如订单的商品ID、卖家ID都是必然存在的,这些字段的空值个数肯定是0,一旦大于0就必然违背了完整性约束;
-
-
2.准确性
-
-
准确性是指数据中记录的信息和数据是否准确,是否存在异
-