Spark三大核心数据结构——RDD的概念、血缘和持久化 - 代码天地

Spark三大核心数据结构——RDD的概念、血缘和持久化

其他 2019-02-20 13:00:58 阅读次数: 0

Spark中三大核心数据结构：

RDD、

广播变量（分布式只读变量）、

累加器（分布式只写变量）、

1. RDD的概念和特点：

RDD，全称Resilient Distributed Dataset，弹性分布式数据集，作为Spark中最基础的数据抽象，类似Java中对象的概念；

它代表一个不可变（只读）、可分区、里面的元素可并行计算的集合，List、Set、Map都是RDD的常见形式。

特点：只读、分区、血缘、缓存、checkpoint

2. RDD的血缘关系（宽窄依赖）

RDD是只读的分区的数据集，对RDD进行改动只能通过RDD的转换操作来实现，多个互相转换的RDDs之间存在血缘关系，也即RDD之间的依赖，分为Narrow Dependencies（一个父RDD对应一个子RDD）和Wide Dependencies（一个父RDD对应多个子RDD）；

RDD的执行是按照血缘关系进行延时计算，血缘关系可以天然的实现数据的容错，如果数据迭代出错，可以通过血缘关系进行回溯重建；并且如果血缘关系过长，也可以通过持久化RDD来切断血缘；

3. RDD支持缓存Cache和CheckPoint这两种持久化方式：

（1）缓存Cache一般适用于应用程序多次需要使用同一个RDD，eg：保存到HDFS中（saveAsHadoopFile），缓存的RDD只有在第一次计算时会根据血缘关系得到分区数据，后续用到该RDD直接从缓存中取得数据而不再依据血缘关系计算，这样的好处是加速了后期的RDD重用；

因为Cache本身只是MemoryOnly，可能会随着内存释放，这样释放后数据会丢失，不安全；所以Cache并不会切断RDDs的血缘关系，如果Cache丢失还可以通过血缘关系来回溯；

（2）checkpoint是将RDD数据保存到持久化存储（eg：HDFS的节点中）中，并通过创建备份保证数据的安全性，这样就可以切断RDD之间的血缘关系，checkpoint后的RDD可以直接从checkpoint拿到数据而并不需要知道其父RDDs，checkpoint是一种常用的RDD缓存手段，相比Cache更加安全。

猜你喜欢

转载自blog.csdn.net/wx1528159409/article/details/87106727

Spark三大核心数据结构——RDD的概念、血缘和持久化

Spark三大核心数据结构（三）——广播变量

Spark三大核心数据结构（二）——累加器 & 自定义累加器的使用原理

RDD血缘关系的追溯和持久化、checkPoint语法

Spark框架深度理解三：运行架构、核心数据集RDD

Spark核心编程-RDD持久化详解

必备核心数据结构和算法清单

Spark核心数据模型RDD及操作

【转载】libevent核心数据结构

Java核心数据结构总结

比特币核心数据结构

2.5、java核心数据结构

Redis核心数据结构

Redis核心数据结构-01

spark - RDD持久化

spark RDD持久化

【SPARK】- RDD持久化

Spark的RDD持久化

Spark基础概念02-缓存机制、RDD血缘和依赖关系

spark性能调优-rdd重构和rdd持久化

spark的三大数据结构

【NVMEM子系统】三、核心数据结构及内在关联

Linux块设备驱动详解（核心数据结构和函数）

Java中字符串处理和核心数据结构

PG Peering流程之PG Recovery核心数据结构和Peering状态机

spark数据结构之RDD

以太坊系列---Block核心数据结构

TensorFlow Python API解析：图的核心数据结构

libevent源码解析（一）核心数据结构

FFmpeg框架解析及核心数据结构

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)