Spark编程：combineByKey与aggregateByKey异同

移动开发 2023-08-12 20:23:26 阅读次数: 0

combineByKey与aggregateByKey异同

	combineByKey	aggregateByKey
不同点	有三个参数列表而且不需要初始值	只有两个参数列表且需要初始值

相同点：两者都能映射key值分别进行分区内计算和分区间计算。

深入代码

aggregateByKey

aggregateByKey有两个参数列表
- 第一个参数列表: 需要传递一个参数，表示为初始值
  当碰见第一个key时候，和value进行分区内计算
- 第二个参数列表: 需要传递2个参数:
  第一个参数表示分区内计算
  第二个参数表示分区间计算

//aggregateByKey有两个参数列表
//第一个参数列表: zeroValue = 
//	   需要传递一个参数，表示为初始值
//     当碰见第一个key时候，和value进行分区内计算
//第二个参数列表: 
//	   需要传递2个参数:
//     第一个参数表示分区内计算
//     第二个参数表示分区间计算

rdd.aggregateByKey(zeroValue = 0)(
    (x, y) => math.max(x, y),
    (x, y) => x + y
).collect().foreach(println)

combineByKey

combineByKey方法需要三个参数：
- 第一个参数: 将相同key的第一个数据进行结构转换，实现操作
- 第二个参数: 分区内的计算规则
- 第三个参数: 分区间的计算规则

//combineByKey方法需要三个参数：
//第一个参数: 
// 将相同key的第一个数据进行结构转换，实现操作
//第二个参数: 
// 分区内的计算规则
//第三个参数: 
// 分区间的计算规则

val newRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
    v => (v, 1),
    (t: (Int, Int), v) => {
    
    
       (t._1 + v, t._2 + 1)
    },
    (t1 Int: , t2: Int) => {
    
    
       (t1._1 + t2._1, t1._2 + t2._2)   
    }
)

猜你喜欢

转载自blog.csdn.net/twi_twi/article/details/127658999

Spark编程：combineByKey与aggregateByKey异同

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

spark combineByKey

spark-aggregateByKey

对spark算子aggregateByKey的理解

spark aggregateByKey与aggregate

Spark——aggregateByKey 案例

Spark API 之combineByKey

spark combineByKey的使用

Spark操作—aggregate、aggregateByKey详解

Spark算子之aggregateByKey详解

Spark core算子aggregateByKey实例

spark 使用aggregateByKey 代替groupbyKey

spark的combineByKey算子原理详解

Spark算子篇-combineByKey实战

spark中的combineByKey函数的用法

java实现spark算子combineByKey

Spark高级函数应用【combineByKey】

【Spark】spark使用aggregateByKey替代groupBeKey

Spark入门（六）--Spark的combineByKey、sortBykey

Key-Value类型RDD转换算子1——partitionBy、groupByKey & reduceByKey、aggregateByKey & foldByKey & combineByKey

【Spark九十七】RDD API之aggregateByKey

spark-聚合算子aggregatebykey

由aggregateByKey看到spark的性能调优

Spark高级算子：mapPartitionsWithIndex，aggregate，aggregateByKey

Spark中aggregateByKey算子详解介绍

CombineByKey

【Spark九十六】RDD API之combineByKey

4 spark入门键值对聚合操作combineByKey

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)