spark(2)

1.spark模块

--------------------------------------

　　(1)Spark Core　　　　　　//核心库

　　(2)Spark SQL

　　(3)Spark Streaming　　　　//准实时计算

　　(4)Spark MLlib　　　　　　//机器学习库

　　(5)Spark graph　　　　　　//图计算

2.Spark集群的运行

------------------------------------------

　　1.local　　　　　　 //本地模式

　　2.standalone　　　　//独立模式

　　3.yarn　　　　　　 //yarn模式

　　4.mesos　　　　　　//mesqs

3.start-all.sh

----------------------------------------------

　　start-master.sh //RPC端口 7077

　　start-slaves.sh 　spark://s201:7077

4.webui端口

-------------------------------------------------

　　http://s201:8080

　　本地模式下：4040

5.SparkContext:

---------------------------------------------------------

　　到spark集群的连接。主要入口点都从这个地方来进

SparkConf conf = new SparkConf();
conf.setAppName("WordCountJava");
conf.setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);
//RDD===>Spark的核心类  R:Resilient  D:distributed dataset弹性分布式数据集
JavaRDD<String> rdd1 = sc.textFile("d:/scala//hello.txt");
//压扁，按空格进行切割，对这一行进行切割
val rdd2 = rdd1.flatMap(line=>line.split(" "));
val rdd3 = rdd2.map(word=>(word,1));
val rdd4 = rdd3.reduceByKey(_ + _);
val list = rdd4.collect();
list.foreach(e=>print(e));　　　　//通过高阶函数来进行循环

spark

----------------------------------------

　　基于hadoop的mr，对hadoop模型扩展，高效实用MR。包括交互式查询和流计算,内存型集群计算，提高app处理速度

spark特点：

------------------------------------

　　(1)速度，在内存中存储中间结果

　　(2)支持多种语言

　　(3)内置了80多种高级算子

　　(4)core　　　　//通用之心引擎，提供内存计算和对外部数据集的引用

　　(5)SQL　　　　//构建核心core模块之上,引入新的抽象SchemaRDD，提供了结构化和半结构化支持

猜你喜欢