注:转载来源如下,学习备用,侵删
【程序员小灰 漫画:什么是数据仓库】
https://mp.weixin.qq.com/s?__biz=MzAwOTQ4MzY1Nw==&mid=2247485475&idx=2&sn=8d485e1f7a03deedc6803a0085018eee&chksm=9b5facc5ac2825d388062e49a99cc4b4ef89afb04736d35c25a6534b101bf0d495e6fce46f8e&mpshare=1&scene=1&srcid=03145ZzV8DkDsP2P06mvtRWI#rd
什么是数据仓库?
什么是ETL?
1.Extract,数据抽取,也就是把数据从数据源读出来。
2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。
3.Load 数据加载,把处理后的数据加载到目标处,比如数据仓库。
国内最常用的开源数据仓库:Hive
Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。
这里有几个名词需要解释:
1.HDFS
Hadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。
2.MapReduce
一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。