(重要)spark RDD核心知识 - 代码天地

(重要)spark RDD核心知识

其他 2019-04-03 10:31:31 阅读次数: 0

spark 核心是RDD：弹性分布式数据集

基本RDD 转换运算

创建intRDD
创建stringRDD
map 运算
filter 数字运算
filter 字符串运算
distinct 运算
- 去除重复元素
randomSplit 运算
- 随机按照比例分为多个RDD
- 如下比例：0.4:0.6
groupBy 运算
- 根据匿名函数规则，分为多个Array

多个RDD 转换运算

创建3个范例RDD
union 并集运算
innersection 交集运算
substract 差集运算
cartesian 笛卡尔乘积运算

基本动作运算

读取数据
统计功能

RDD key-value 基本转换运算

创建范例 k-v RDD
将具有相同key的值合并

多个RDD k-v 转换运算

按照key 做差

key-value 动作运算

根据key 查找value

共享变量：用于节省内存和运行时间，提升并行执行时的运行效率

分为两种：
- Broadcast 广播变量
  - 不使用广播
  - 使用广播变量
- accumulator 累加器

RDD persistence 持久化

需要重复运算的RDD 存储到内存中
- 默认memory_only

猜你喜欢

转载自blog.csdn.net/u012501054/article/details/88806648

(重要)spark RDD核心知识

Spark Core 核心知识--RDD

Spark Core 核心知识——RDD

Spark Core 核心知识--RDD Spark Core 核心知识--RDD

Spark core 核心知识之再聊RDD

从0开始学习spark（3）Spark Core 核心知识

Spark核心知识点（知识结构体系）

Spark RDD核心详解

理解Spark的核心RDD

Spark : 核心RDD

Spark核心 RDD（上）

Spark核心 RDD（下）

spark core 核心RDD

十一、Spark核心概念RDD

大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制

（转+分享）JAVA核心知识点整理，用于面试！！！【五】~ Hadoop/Spark

大数据培训之核心知识点Hbase、Hive、Spark和MapReduce的概念理解、特点及机制等

Spark核心RDD：combineByKey函数详解

Spark核心编程-RDD操作原理分析

Spark核心概念RDD的另类解读

Spark核心编程-RDD持久化详解

Spark核心编程-RDD行动操作

Spark核心编程-RDD控制操作

Spark核心编程-RDD转换操作

Spark核心编程-RDD创建操作

Spark Core核心----RDD常用算子编程

02-RDD与spark核心概念

1.spark核心RDD特点

Spark RDD之核心原理知多少?

Spark核心编程(RDD行动算子)-action

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)