spark - 宽依赖和窄依赖 - 代码天地

spark - 宽依赖和窄依赖

企业开发 2018-05-09 12:48:20 阅读次数: 4

（1）血缘关系：

通过血缘关系，可以知道一个RDD是如何从父RDD计算过来的

A =map=> B =filter=> C

（2）窄依赖：一个父RDD的partition最多被子RDD中的partition使用一次（一父对应一子），窄依赖无shuffle

（3）宽依赖：

父RDD中的一个partition会被子RDD中的partition使用多次(一父多子)

宽依赖有shuffle，一个shuffle会拆成一个stage，2个shuffle拆成3个stage

以wordcount为例（reduceBykey是宽依赖，把stage拆为2个stage；stage序号从0开始，每个stage最后一个操作的名字作为整个stage的名字）：

sc.textFile("/in/1.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect

分析：

wordcount例子里，reduceByKey相当于把相同的key分到一个partition上去，然后在partition上做加和，

因为并不是同一个相同key都在一个partition里，可能在不同机器上，所以需要有shuffle过程，reduceByKey在shuffle前本地会做一个预聚合

（4）会引起shuffle的操作

（5）spark中的join是宽依赖还是窄依赖？

co-partitioned 是窄依赖，其他是宽依赖

猜你喜欢

转载自coderlxl201209164551.iteye.com/blog/2414174

spark - 宽依赖和窄依赖

Spark 中的宽依赖和窄依赖

spark窄依赖和宽依赖

Spark中的宽依赖和窄依赖

Spark：宽依赖和窄依赖

spark宽依赖与窄依赖

Spark - 宽依赖 & 窄依赖

spark学习系列——10 spark宽依赖和窄依赖

【Spark练习】宽、窄依赖

spark rdd之间的宽依赖和窄依赖

spark 中宽依赖和窄依赖的区别及优缺点

聊聊Spark中的宽依赖和窄依赖

Spark _08窄依赖和宽依赖&stage

Spark:宽依赖与窄依赖深度剖析

小记--------spark的宽依赖与窄依赖分析

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark内核源码深度剖析（1） - Spark整体流程和宽依赖和窄依赖

Spark系列——RDD的宽依赖和窄依赖，以及Spark的运行架构，运行流程，框架的特点

Spark 什么是DAG（有向无环图）（窄依赖和宽依赖）

SPARK 宽依赖和窄依赖 transfer action lazy策略之间的关系

Spark宽依赖窄依赖 Job Stage Executor Task 总结

Spark03-Spark运行过程剖析（基本运行流程， DAG，Lineage(血缘关系) 宽依赖和窄依赖）

Spark_Spark 中的宽窄依赖每次进步一点点——Spark 中的宽依赖和窄依赖

Spark2.3.2源码解析： 5. RDD 依赖关系：宽依赖与窄依赖

spark任务提交流程与管依赖和窄依赖

跟我一起学Spark之——RDD Join中宽依赖与窄依赖的判断

Spark 的join 什么时候是宽依赖什么时候是窄依赖

宽依赖和窄依赖

窄依赖和宽依赖

Spark中窄依赖详细介绍

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)