在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:
工具: impala 、 sqoop、Flume、azkaban、Oozie、Hue
一 impala
二 sqoop
2.Sqoop导入
3.Sqoop导出
三 Flume
3.Flume负责均衡和容错(load-balance、failover)
四 azkaban
1.工作流介绍
五
六 Hue
2.Hue的编译安装