（Spark调优~）算子的合理选择

其他 2021-11-21 07:23:24 阅读次数: 0

1.map与mappartition

1.map是对RDD中的每个元素作用上一个函数

2.mappartition是对每个分区作用上一个函数

如果遇到需要把数据写到数据库，一定要用mappartition

2.foreach 与foreachpartition

类似于map与mappartition
区别是：foreach是行动算子，map是转换算子

3.groupByKey与reduceByKey

1.groupByKey

所有数据都经过了shuffle。

2.reduceByKey

会先在map端做一个本地的聚合，然后聚合的数据进行shuffle操作（map端预聚合）
（优先采用这种方法）
在这里插入图片描述

4.collect算子

执行结果的数据全部梵高一个数组里（会导致OOM）慎用！

5.coalesce与repartition

两者的作用都是使分区数发生改变

1.coalesce算子

使分区数减少时不会有shuffle，（data.coalesce(1)）
使分区数超过默认值时，会有shuffle

一般使用在多分区变少分区

2.repartition算子

repartition算子底层调用coalesce（shuffle = true），会有shuffle

猜你喜欢

转载自blog.csdn.net/weixin_48929324/article/details/115607344

（Spark调优~）算子的合理选择

spark算子调优

spark调优——算子调优

Spark算子调优—基本的算子调优

spark算子调优reduceByKey本地聚合

spark算子调优一：mapPartitions

Spark性能优化 (2) | 算子调优

Spark性能调优之算子调优（二）

spark作业调优（一）-------合理分配资源

spark调优（二）------合理调节作业中的并行度

Spark性能调优与故障处理之(2)Spark 算子调优

【Spark调优】：尽量避免使用shuffle类算子

spark算子调优三：filter与coalesce的配合使用

spark算子调优五：reduceByKey本地聚合

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

Spark调优(二)-----合理配置Spark集群的Executor,Core,Partition

spark算子调优使用repartition解决Spark SQL降低并行度的性能问题

spark 优化算子选择

Spark性能调优之合理分配系统资源以及并行度的调节

Spark调优 | Spark Streaming 调优

spark 算子调优之使用foreachPartition优化写数据库的性能

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

Spark 性能调优 Rdd 之 reduceByKey 本地聚合（也就是map端聚合算子）

Spark(二十四）算子调优之filter过后使用coalesce减少分区数量

Spark(二十五）算子调优之使用foreachPartition优化写数据库性能

Spark（二十七）算子调优之reduceByKey本地聚合介绍

【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子

spark算子调优二：foreachPartition优化数据库操作

spark算子调优四：repartition解决SparkSQL低并行度问题

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)