Spark 是什么?
Spark 是一种通用的大数据计算框架,正如传统大数据技术 Hadoop 的 MapReduce、Hive 引擎,以及 Storm 流式实时计算引擎等。Spark 包含了大数据领域常见的各种计算框架:比如 Spark Core 用于离线计算,Spark SQL 用于交互式查询,Spark Streaming 用于实时流式计算,Spark MLlib 用于机器学习,Spark GraphX 用于图计算。
Spark 主要用于大数据的计算,而 Hadoop 以后主要用于大数据的存储(比如 HDFS、Hive、HBase 等),以及资源调度(Yarn)。
Spark + Hadoop 的组合,是未来大数据领域最热门的组合,也是最有前景的组合。
Hadoop 架构
Hadoop 包括 HDFS 存储系统 和 MapReduce 计算框架 两部分,Hive 是针对大数据利用 SQL 的查询框架