spark算子调优五：reduceByKey本地聚合 - 代码天地

spark算子调优五：reduceByKey本地聚合

其他 2019-06-19 08:59:32 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/91407143

reduceByKey相较于普通的shuffle操作一个显著的特点就是会进行map端的本地聚合，map端会先对本地的数据进行combine操作，然后将数据写入给下个stage的每个task创建的文件中，也就是在map端，对每一个key对应的value，执行reduceByKey算子函数。reduceByKey算子的执行过程如图

使用reduceByKey对性能的提升如下：

本地聚合后，在map端的数据量变少，减少了磁盘IO，也减少了对磁盘空间的占用；
本地聚合后，下一个stage拉取的数据量变少，减少了网络传输的数据量；
本地聚合后，在reduce端进行数据缓存的内存占用减少；
本地聚合后，在reduce端进行聚合的数据量减少。

基于reduceByKey的本地聚合特征，我们应该考虑使用reduceByKey代替其他的shuffle算子，

groupByKey不会进行map端的聚合，而是将所有map端的数据shuffle到reduce端，然后在reduce端进行数据的聚合操作。由于reduceByKey有map端聚合的特性，使得网络传输的数据量减小，因此效率要明显高于groupByKey。

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/91407143

spark算子调优五：reduceByKey本地聚合

spark算子调优reduceByKey本地聚合

Spark 性能调优 Rdd 之 reduceByKey 本地聚合（也就是map端聚合算子）

spark 大型项目实战(四十三):算子调优之reduceByKey本地聚合介绍

spark 大型项目实战(四十二):算子调优之reduceByKey本地聚合介绍

Spark（二十七）算子调优之reduceByKey本地聚合介绍

spark算子调优

spark调优——算子调优

Spark算子reduceByKey

Spark算子调优—基本的算子调优

【Spark调优】：如果实在要shuffle，使用map侧预聚合的算子

Spark算子groupbykey与reducebykey区别

spark算子调优一：mapPartitions

Spark性能优化 (2) | 算子调优

（Spark调优~）算子的合理选择

Spark性能调优之算子调优（二）

【Spark】Spark groupByKey，reduceByKey，sortByKey 算子比较

spark 算子之 reduceByKey与groupByKey的区别

Spark常用的算子总结（4）—— reduceByKey

Spark调优数据本地化调优

Spark调优：数据本地化（调优）

Spark性能调优与故障处理之(2)Spark 算子调优

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

【Spark调优】：尽量避免使用shuffle类算子

spark算子调优三：filter与coalesce的配合使用

【Spark调优】数据本地化

Spark常规性能调优五：调节本地化等待时长

Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）

Spark入门（五）--Spark的reduce和reduceByKey

Spark性能调优之 Spark 数据倾斜（五）

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)