Spark运行时程序调度 - 代码天地

Spark运行时程序调度

其他 2018-07-27 14:35:32 阅读次数: 0

一，Spark运行时程序调度

1，Spark应用程序会在一个物理节点上有驱动程序（Driver）

2，驱动程序（Driver）会分发每个tasks到Worker节点

3，Worker节点就会返回result到Dirver节点

二，Spark程序运行流程

1，分布式文件系统（File system）--加载数据集（RDD）

2，transformations延迟执行--针对RDD的操作

3，Action触发执行

三，Spark为何要做缓存

1，lines = sc.textFile(“hdfs://...”)
   加载进来成为RDD
2，errors = lines.filter(_.startsWith(“ERROR”))
   Transformation转换
3，errors.persist()
   缓存RDD
4，Mysql_errors = errors.filter(_.contain(“MySQL”)).count
   Action执行
5，http_errors = errors.filter(_.contain(“Http”)).count
  Action执行

由上面的代码可以看出

1和2是Transformation操作，

4是Action操作就会触发Job,

如果不做3的缓存那一步，5就会找不到errors这个RDD

猜你喜欢

转载自blog.csdn.net/afafawfaf/article/details/81038386

Spark运行时程序调度

程序运行时间

Spark-运行时架构

spark:清空程序运行时的所有（cache）缓存块

Spark入门（七）：Spark运行时架构

1026. 程序运行时间

计算程序运行时间

如何计算程序运行时间

Qt测算程序运行时间

java 获得程序运行时间

Python计算程序运行时间

测试python程序运行时间

输出程序运行时长的代码

计算python程序运行时间

程序运行时间(15)

ubuntu 查看程序运行时间

【gettimeofday】测试程序运行时间

java程序运行时间

1026 程序运行时间(15)

PAT 1026 程序运行时间

测试js程序运行时间

程序运行时间计时

scala 计算程序运行时间

python 计时程序运行时间

1016.程序运行时间

1026 程序运行时间

输出程序的运行时间

CVI程序运行时异常整理

计算程序运行时间！！！

让程序显示运行时间

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)