【Spark】spark使用aggregateByKey替代groupBeKey

其他 2020-01-29 18:33:48 阅读次数: 0

spark使用aggregateByKey替代groupBeKey

使用aggregateByKey需要确定下面三个参数：

zeroValue ：初始值
seqOp : 对于key相同的元素的操作方法
combOp : 对于key不同的元素的操作方法

听起来很难懂，看个例子就明白了：

val data=List((1,3),(1,2),(1,4),(2,3))
val rdd=sc.parallelize(data )
//合并不同partition中的值，a，b得数据类型为zeroValue的数据类型
def combOp(a:List[Int],b:List[Int]):List[Int] ={
  a ++ b
}
def seqOp(a:List[Int],b:Int):List[Int]={
  a.::(b)
}

val aggregateByKeyRDD=rdd.aggregateByKey(List(0))(seqOp, combOp)
aggregateByKeyRDD.foreach(println)
val groupbykeyRDD=rdd.groupByKey()
groupbykeyRDD.foreach(println)

输出结果为：

(1,List(4, 2, 3, 0))
(2,List(3, 0))
(1,CompactBuffer(3, 2, 4))
(2,CompactBuffer(3))

发布了97 篇原创文章 · 获赞 55 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/voidfaceless/article/details/103557558

【Spark】spark使用aggregateByKey替代groupBeKey

spark 使用aggregateByKey 代替groupbyKey

Spark部分：调优【reduceByKey/aggregateByKey替代groupByKey，mapPartitions替代普通map，foreachPartitions替代foreach】

spark-aggregateByKey

对spark算子aggregateByKey的理解

spark aggregateByKey与aggregate

Spark——aggregateByKey 案例

Spark操作—aggregate、aggregateByKey详解

Spark算子之aggregateByKey详解

Spark core算子aggregateByKey实例

Spark编程：combineByKey与aggregateByKey异同

【Spark九十七】RDD API之aggregateByKey

spark-聚合算子aggregatebykey

由aggregateByKey看到spark的性能调优

Spark高级算子：mapPartitionsWithIndex，aggregate，aggregateByKey

Spark中aggregateByKey算子详解介绍

Spark算子中aggregateByKey算子的理解【Java版纯代码】

Spark中的groupByKey,reduceByKey,combineBykey,和aggregateByKey的比较和区别

【spark】二 reduceByKey、reduceByKeyLocally、groupByKey、combineByKey、aggregateByKey 区别 [待补充]

Spark为何使用Netty通信框架替代Akka

aggregateByKey的使用

Spark是否会替代Hadoop?

Spark 使用

HADOOP和spark的关系？ spark能否替代Hadoop？？？

spark aggregateByKey 时 java.lang.OutOfMemoryError: GC overhead limit exceeded

Spark代码可读性与性能优化——示例六（groupBy、reduceByKey、aggregateByKey）

Spark 04 Spark SQL 使用

Spark集群中使用spark。

spark

spark：

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)