SparkCore之RDD之间的依赖关系(血缘)详解 - 代码天地

SparkCore之RDD之间的依赖关系(血缘)详解

其他 2021-01-22 13:32:05 阅读次数: 0

1-什么是依赖关系(血缘关系)
- 通过构建依赖关系可以实现RDD的容错
- 子RDD依赖于父RDD
2-为什么需要依赖关系
- 因为Spark是基于RDD的并行计算框架
- RDD不可变可分区可并行计算的集合
- 通过划分为宽依赖和窄依赖可以在窄依赖过程中实现RDD分区的并行计算
- 但是在宽依赖的部分需要从上一个RDD的不同分区拉取数据，在Shuffle阶段无法实现并行计算
3-依赖关系有几种？
- 窄依赖：NarrowDependency
- 宽依赖：ShuffleDependency
4-如何判断一个依赖是窄依赖还是宽依赖？
- 通过一个父RDD跟一个子RDD对应，窄依赖
- 通过一个父RDD跟多个子RDD对应，宽依赖

在这里插入图片描述

这里有一个面试题: 子RDD的一个分区依赖多个父RDD是宽依赖还是窄依赖？
1) 不能确定,也就是宽窄依赖的划分依据是父RDD的一个分区是否被子RDD的多个分区所依赖,是,就是宽依赖,或者从shuffle的角度去判断,有shuffle就是宽依赖,如Join

5-Spark设计依赖关系目的是什么？

为了能够Spark并行计算,是划分Stage的依据
为了构建血缘关系进行RDD的容错,一个分区数据丢失，只需要从父RDD的对应1个分区重新计算即可

猜你喜欢

转载自blog.csdn.net/m0_49834705/article/details/112647243

SparkCore之RDD之间的依赖关系(血缘)详解

SparkCore之RDD依赖关系

SparkCore之RDD详解

RDD血缘关系源码详解！

SparkCore之RDD的Checkpoint详解

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

（RDD）Lineage 血缘关系和 Dependence 依赖关系

SparkCore:RDD依赖关系（宽窄依赖）内含详细图解!!!!!!!

SparkCore之RDD中的函数传递详解

SparkCore之RDD的缓存

spark RDD 之间得依赖关系

Spark基础概念02-缓存机制、RDD血缘和依赖关系

SparkCore之键值对RDD数据分区器详解

SparkCore的RDD创建方式详解

SparkCore之RDD详细概述

SparkCore之RDD缓存与RDD CheckPoint

SparkCore之RDD编程模型与RDD的创建

spark笔记之RDD的依赖关系

SparkCore系列(二)rdd聚合操作,rdd之间聚合操作

sparkCore RDD解析、算子用法详解

RDD的依赖关系

RDD依赖关系与DAG

Spark——RDD 依赖关系

RDD的依赖关系(重要)

Spark的RDD依赖关系

spark封神之路(10)-RDD依赖和血缘

RDD之间的关系原理

RDD血缘关系的追溯和持久化、checkPoint语法

SparkCore之RDD的转换Value类型

2022数据血缘关系详解

今日推荐

周排行

rac环境打PSU补丁ERROR:This patch is not applicable to GI home.

科学活动《离园倒计时》（时间）

Windows 沙箱开发踩坑

secureCRT 改变显示宽度

hdu多校第六场1008 （hdu6641）TDL 暴力

【low向】注册用户时密码强度的判定

__int64

context-params与init-params

JS三个编码函数和net编码System.Web.HttpUtility.UrlEncode比较

springboot通过重写addResourceHandlers拦截请求访问本地资源

每日归档

更多

2024-08-08(0)

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)