数据仓库:
数据仓库是将多个数据源
的数据进行ETL处理之后,按照一定的主题集成
起来提供决策支持
和联机分析
应用的结构与非结构化的数据环境。
E(抽取)T(转换)L(加载)对数据处理的基本流程
数据仓库与数据库区别:
1、数据库式面向事物的设计
2、数据仓库是面向主题设计
3、数据库一般存储在线交易等数据
4、数据仓库存储的一般是历史数据或者实时数据流数据
5、数据库设计是避免冗余、采用三范式的规则设计
6、数据仓库在设计有意引入冗余,采用反范式的方式设计
OLTP与OLAP区别:
1、联机事物处理OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事物处理、例如银行交易、订单、聊天消息
2、联机分析处理OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并提供直观易懂的查询结果
数据仓库原因:
1、各个业务数据存在不一致
2、数据关系混乱
3、业务系统一般针对OLTP
4、数据仓库可以实现OLAP分析
5、数据仓库是多源复杂环境、可以对多个业务的数据进行统一分析
数据仓库目的:
1、集成多源数据,数据来源与去向可追溯、梳理血缘关系、提升数据价值。
2、减少重复开发,保证通用型中间数据,避免重复计算
3、屏蔽底层业务逻辑,对外提供一致的、结构清晰的数据
数据仓库实现:
1、实现通用型数据ETL工具
2、根据业务建立合理的数据分层模型
数据仓库分层优点:
1、清晰数据结构:每一个数据分层都有对应的作用域
2、数据血缘追踪:对各层之间的数据表转换进行跟踪,建立血缘关系
3、减少重复开发:规范数据分层,开发通用的中间层数据
参考:叁金