34个ETL系统总结 P1 数据探查系统

1. 数据探查系统

主要探查表的元数据、数据量、数据质量

数据质量可以分为6个部分:

  • 完整性 :完整性用于度量哪些数据丢失了或者哪些数据不可用
  • 规范性 :规范性用于度量哪些数据未按统一格式存储
  • 一致性 :一致性用于度量哪些数据的值在信息含义上是冲突的
  • 准确性 :准确性用于度量哪些数据和信息是不正确的,或者数据是超期的
  • 唯一性 :唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的
  • 关联性 :关联性用于度量哪些关联的数据缺失或者未建立索引

常用技巧:可以建立审计表来统计核心字段的覆盖率

猜你喜欢

转载自blog.csdn.net/hardyer/article/details/108603443