1.spark模块
--------------------------------------
(1)Spark Core //核心库
(2)Spark SQL
(3)Spark Streaming //准实时计算
(4)Spark MLlib //机器学习库
(5)Spark graph //图计算
2.Spark集群的运行
------------------------------------------
1.local //本地模式
2.standalone //独立模式
3.yarn //yarn模式
4.mesos //mesqs
3.start-all.sh
----------------------------------------------
start-master.sh //RPC端口 7077
start-slaves.sh spark://s201:7077
4.webui端口
-------------------------------------------------
http://s201:8080
本地模式下:4040
5.SparkContext:
---------------------------------------------------------
到spark集群的连接。主要入口点都从这个地方来进
SparkConf conf = new SparkConf(); conf.setAppName("WordCountJava"); conf.setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
//RDD===>Spark的核心类 R:Resilient D:distributed dataset弹性分布式数据集
JavaRDD<String> rdd1 = sc.textFile("d:/scala//hello.txt");
//压扁,按空格进行切割,对这一行进行切割
val rdd2 = rdd1.flatMap(line=>line.split(" "));
val rdd3 = rdd2.map(word=>(word,1));
val rdd4 = rdd3.reduceByKey(_ + _);
val list = rdd4.collect();
list.foreach(e=>print(e)); //通过高阶函数来进行循环
spark
----------------------------------------
基于hadoop的mr,对hadoop模型扩展,高效实用MR。包括交互式查询和流计算,内存型集群计算,提高app处理速度
spark特点:
------------------------------------
(1)速度,在内存中存储中间结果
(2)支持多种语言
(3)内置了80多种高级算子
(4)core //通用之心引擎,提供内存计算和对外部数据集的引用
(5)SQL //构建核心core模块之上,引入新的抽象SchemaRDD,提供了结构化和半结构化支持