一、数据集市定义
数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
- 独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。这种数据集市开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。
- 从属型数据集市:数据来自于企业的数据仓库,这种会导致开发周期的延长,但是从属型数据集市在体系结构上比独立型数据集市更稳定,可以提高数据分析的质量,保证数据的一致性。
二、数据集市和数据仓库的区别
在数据结构上,数据仓库是面向主题的、集成的数据的集合。而数据集市通常被定义为星型结构或者雪花结构,数据集市一般是由一张事实表和几张维度表组成的。
比较对象 |
数据仓库 |
数据集市 |
数据来源 |
ODS统一信息视图区 |
数据仓库 |
数据范围 |
面向企业级 |
一般是部门级 |
历史数据 |
大量的历史数据 |
一部分历史数据 |
- 数据集市是一组特定的、针对某个主题域、某个部门或者某些特殊用户而进行分类的数据集合,也可以说是小型的数据仓库。用户可以在数据集市中快速的对数据进行访问和对报表进行展示,同时在数据结构的内部对数据进行必要的汇总和优化。
- 数据仓库到数据集市的过程是从数据规范化到多维建模的过程,包括数据仓库内的实体转化成事实表、维表,以及将实体之间的关系转换成多维映射。
- 数据仓库项目中,数据集市通常按照地区、日期等维度对数据进行组织和汇总,因此数据仓库转化成数据集市也是按照轻量级汇总或者中度汇总和计算完成的。
- 数据集市里的数据一般都是从数据仓库中经过转换、汇总计算获取的,直接支撑前段的应用需求。数据集市的数据通常会作为olap服务和应用服务的数据输入。
- 数据集市一般不会从数据源系统中直接抽取,即一般不提倡建立独立的数据集市,因为这有可能导致数据的不一致性,同时也会增加多个额外的进程,从而导致资源的浪费。
三、数据集市目标分析
数据集市主要针对一组特定的某个主题域、部门或者特殊用户需求的数据集合。这些数据需要针对用户的快速访问和报表展示进行优化,优化的方式包括对数据进行轻量级汇总。数据集市的目标分析过程包括对数据集市的需求进行拆分,按照不同的业务规则进行组织,将与业务主题相关的实体组织成主题域,并且对各类指标进行维度分析,从而形成数据集市目标说明书。内容包括详细的业务主题、业务主题域和各项指标及其分析维度。