Hadoop生态系统：各计算引擎及工具的产品分析

大数据分式计算与流式计算的模式：

1.批量计算（有开始和结束时间的固定段静态数据）

2.流式计算（无边界的/动态数据）

3.交互式

4.图计算

大数据分析 Hadoop：

1.基于hdfs(分布式文件存储)+mapredus(数据键值对)的数据分析工具。历史来源“三辆马车”gfs/bigtable/mp

2.Yarm(资源管理框架)

3.Sqoop(数据库迁移工具)

4.Mahout(数据挖掘算法库)

5.Hbase(分布式存储系统)

6.Zookeeper(分布式协作服务)

7.Hive(数据仓库工具)

8.Fiume(日志收集工具)

9.Spark（通用计算引擎）

10.impala（新型查询系统）

11.kafka（分布式消息队列）

12.ambari（大数据集群管理）

13.oozie(工作流调度)

大数据处理能力对比分析：

Hive是jdbc/odbc的java实现，WebGui的数据仓库管理工具。

Spark 混合框架提供交互式编程体验，优化了MR计算模型，但扩展/稳定不行，还是基于hdfs+yarn,不可商用。流水线微批处理，高吞吐但高延迟，秒级。

Impala--或rdbms ，是绕过MR的快速数据查询工具，比mr的查询大一个数量级。

Trino(Presto)提供交互式查询，特点：支持多个数据源，提供（异构+联邦）查询。Trino分布式sql查询引擎,用来进行高速、实时的数据查询 Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS的问题.性能优化:Presto/Trino支持内存并行处理、跨集群节点管线执行、多线程执行模型、高效的扁平内存数据结构(最小化Java的垃圾回收)、Java字节码生成。超过了Impala和Spark SQL .

Hbase适合十亿--百亿级的数据处理量，hdfs最少5个节点及以上。

Flink 混合框架基于事件处理的消息队列，实时计算，流批一体。轻量容错高吞吐，低延迟毫秒级。