OLAP
• OLTP 事务
,是传统的关系型数据库的主要应用。主要是基本的、日常的事务处理,例如银行交易。
• OLAP 分析
,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
模型表为什么叫模型表
- 因为可以通过不同模式(面向业务过程、面向分析、面向事件event主题)建模,这样表就按照某一个逻辑呈现、储存数据了。
数仓为什么要分层?
在实际项目中,常常根据
业务需求
的频繁性
来确定需要聚集的维度。此外,为了保证数据的一致性,汇总的事实表通常基于明细表的维度和事实进行计算,有汇总表可以节省计算成本
。
- 应对业务方的数据需求,构建汇总表,这样不会每次查询的时候都调用事实表,从底层多个Join取数据。有了汇总表,频繁的查询下可以节省成本。
数据同步 ODS Stage 层
- 各个系统的元数据通过
ETL
同步到操作性数据仓库ODS中 - 为什么需要ETL呢?
-
用户使用的应该是数据团队精心加工后的数据,而不是来自于业务系统的原始数据。原始数据库A里可能用1代表下单成功,0代表失败;而系统B里可能用success代表成功,fail代表下单失败。而作为数据使用者(分析师),最终希望看到的是一个汇总的、规范、包含所有订单信息而且口径统一的宽表。
- 数据来源包括业务数据库(
结构化
)、日志数据(半结构化
)、文本/音频/图片(非结构化
)数据
DW层 DWD DWB DWS
DWD和DWS是由ODS层数据经过ETL清洗、转换、加载而生成的,而且它们通常都是基于Kimball的维度建模理论来构建的,并通过一致性维度和数据总线来保证各个子主题的维度一致性。
指标
- 事务性指标:衡量业务活动 存量型指标:衡量状态,如截止当前的会员注册数;
- 复合型指标:如浏览UV-下单买家转化率,是在前两者基础上计算、复合而成的
- 比例型(
留存
)、排名型(TOP 15明细
)等