spark算子的分类 - 代码天地

spark算子的分类

其他 2019-01-05 09:10:56 阅读次数: 0

spark内置了非常多有用的算子（方法），通过对这些算子的组合就可以完成业务需要的功能，spark的编程归根结底就是对spark算子的使用，因此非常有必要对这些内置算子进行详细的归纳。

spark算子在大的方向上可以分为两类：

名称	说明
Transformation	变换、转换算子：不触发提交作业，只是完成作业中间过程处理；Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。Transformation参数类型为value或者key-value的形式。
Action	行动算子：触发SparkContext提交job作业。Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。

value 类型

细类型	算子
输入分区与输出分区一对一型	map flatMap mapPartitions glom
输入分区与输出分区多对一型	union cartesain
-Cache型	cache persist
输出分区为输入分区子集型	filter distinct substract sample takeSample
输入分区与输出分区多对多型	groupBy

key-value类型

细类型	算子
输入分区与输出分区一对一	mapValues
对单个RDD或两个RDD聚集	单个RDD聚集: combineByKey reduceByKey partitionBy两个RDD聚集: Cogroup
连接	joinleftOutJoin和 rightOutJoin

Action算子

细类型	算子
无输出	foreach
HDFS	saveAsTextFilesaveAsObjectFile
Scala集合和数据类型	collect collectAsMap reduceByKeyLocally lookup count top reduce fol aggregate

猜你喜欢

转载自blog.csdn.net/qq_43688472/article/details/85635236

Spark的算子的分类

spark算子的分类

Spark : Scala算子分类

spark算子详解------spark算子分类

spark中的各种算子分类

spark算子

【Spark】算子

spark 算子

spark -- RDD-API （创建RDD RDD的方法/算子分类 Transformation转换算子 Action动作算子统计操作）

Spark_Spark算子_repartitionAndSortWithinPartitions

spark transformation算子

Spark常用算子详解

Spark算子练习

spark重要的几个算子

Spark算子reduceByKey

Spark常用算子总结

Spark常用算子练习

Spark算子总结

spark常用算子

10.2 spark算子介绍

Spark RDD 常用算子

Spark transformation算子案例

Spark action算子案例

Spark常用算子讲解

spark的RDD高级算子

spark的rdd算子

对spark算子aggregateByKey的理解

spark算子详解

spark高级算子(一)

spark算子系列

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)