第1章 Spark数据分析导论

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010819416/article/details/82800620

1.1 Spark是什么
集群计算的平台

1.2 一个大一统的软件栈
在这里插入图片描述

1.2.1 Spark Core
任务调度、内存管理、错误恢复、与存储系统交互,包含对弹性分布式数据集(resilient distributed dataset,RDD)的API定义。

1.2.2 Spark SQL
操作结构化数据的 程序包,使用SQL、Hive SQL查询,支持HIVE表,Parquet以及JSON等数据源。

1.2.3 Spark Streaming
对实时数据进行流式计算的组件。服务器日志和消息队列都是数据流。

1.2.4 MLlib
机器学习功能的程序库,提供机器学习算法,模型评估,数据导入

1.2.5 GraphX
操作图(例如:朋友关系图)的程序库,可以进行并行的图计算

1.2.6 集群管理器
支持在各种集群管理上运行,YARN、Apache Mesos,以及自带的独立调度器

1.3 Spark的用户和用途
数据科学应用和数据处理应用

1.3.1 数据科学任务

1.3.2 数据处理应用

1.4 Spark简史

1.5 Spark的版本和发布

1.6 Spark的存储层次
可以将任何HDFS上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统(本地文件、Hive、HBase)。

猜你喜欢

转载自blog.csdn.net/u010819416/article/details/82800620