大数据分式计算与流式计算的模式:
1.批量计算(有开始和结束时间的固定段静态数据)
2.流式计算(无边界的/动态数据)
3.交互式
4.图计算
大数据分析 Hadoop:
1.基于hdfs(分布式文件存储)+mapredus(数据键值对)的数据分析工具 。历史来源“三辆马车”gfs/bigtable/mp
2.Yarm(资源管理框架)
3.Sqoop(数据库迁移工具)
4.Mahout(数据挖掘算法库)
5.Hbase(分布式存储系统)
6.Zookeeper(分布式协作服务)
7.Hive(数据仓库工具)
8.Fiume(日志收集工具)
9.Spark(通用计算引擎)
10.impala(新型查询系统)
11.kafka(分布式消息队列)
12.ambari(大数据集群管理)
13.oozie(工作流调度)
大数据处理能力对比分析:
Hive是jdbc/odbc的java实现,WebGui的数据仓库管理工具。
Spark 混合框架提供交互式编程体验,优化了MR计算模型,但扩展/稳定不行,还是基于hdfs+yarn,不可商用。流水线微批处理,高吞吐但高延迟,秒级。
Impala--或rdbms ,是绕过MR的快速数据查询工具,比mr的查询大一个数量级。
Trino(Presto)提供交互式查询,特点:支持多个数据源,提供(异构+联邦)查询。Trino分布式sql查询引擎,用来进行高速、实时的数据查询 Presto的产生是为了解决Hive的MapReduce模型太慢且不能通过BI等工具展现HDFS的问题.性能优化:Presto/Trino支持内存并行处理、跨集群节点管线执行、多线程执行模型、高效的扁平内存数据结构(最小化Java的垃圾回收)、Java字节码生成。超过了Impala和Spark SQL .
Hbase适合十亿--百亿级的数据处理量,hdfs最少5个节点及以上。
Flink 混合框架基于事件处理的消息队列,实时计算,流批一体。轻量容错 高吞吐,低延迟毫秒级。