combineByKey与aggregateByKey异同
combineByKey | aggregateByKey | |
---|---|---|
不同点 | 有三个参数列表而且不需要初始值 | 只有两个参数列表且需要初始值 |
相同点:两者都能映射key值分别进行分区内计算和分区间计算。
深入代码
aggregateByKey
- aggregateByKey有两个参数列表
- 第一个参数列表: 需要传递一个参数,表示为初始值
当碰见第一个key时候,和value进行分区内计算 - 第二个参数列表: 需要传递2个参数:
第一个参数表示分区内计算
第二个参数表示分区间计算
- 第一个参数列表: 需要传递一个参数,表示为初始值
//aggregateByKey有两个参数列表
//第一个参数列表: zeroValue =
// 需要传递一个参数,表示为初始值
// 当碰见第一个key时候,和value进行分区内计算
//第二个参数列表:
// 需要传递2个参数:
// 第一个参数表示分区内计算
// 第二个参数表示分区间计算
rdd.aggregateByKey(zeroValue = 0)(
(x, y) => math.max(x, y),
(x, y) => x + y
).collect().foreach(println)
combineByKey
- combineByKey方法需要三个参数:
- 第一个参数: 将相同key的第一个数据进行结构转换,实现操作
- 第二个参数: 分区内的计算规则
- 第三个参数: 分区间的计算规则
//combineByKey方法需要三个参数:
//第一个参数:
// 将相同key的第一个数据进行结构转换,实现操作
//第二个参数:
// 分区内的计算规则
//第三个参数:
// 分区间的计算规则
val newRDD: RDD[(String, (Int, Int))] = rdd.combineByKey(
v => (v, 1),
(t: (Int, Int), v) => {
(t._1 + v, t._2 + 1)
},
(t1 Int: , t2: Int) => {
(t1._1 + t2._1, t1._2 + t2._2)
}
)