离线数据入库
目标:按照设计的流程,实现历史数据的入库。
- 数据上传
- 创建数据表
- 数据拆分
- 数据表加载
离线数据入库总体流程
离线数据,大多为历史已经存在的、用于进行宏观统计分析,对于时效性不高的业务场景所使用的数据。本项目的离线分析数据均来源于此。
离线数据入库,即将数据加载到数据仓库内。首先将数据传入服务器,在大数据集群环境就绪的前提下,将数据上传到海量数据存储的HDFS 之上。
在Hive数据库中,创建数据库,创建相应的数据表(外部表),最后将HDFS上离线数据加载到数据表中。
上传数据
创建历史数据存储目录。将历史数据上传到linux文件系统内。
mkdir /export/HistoryDatas
将数据上传到HDFS
hadoop fs