Spark Rdd map和mapPartitions效率问题 - 代码天地

Spark Rdd map和mapPartitions效率问题

其他 2018-09-21 17:08:41 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sunrising_hill/article/details/79359203

当map和mapPartitions参数中的方法并没有额外开销时，比如创建数据库连接，申请其他资源时，使用map比mapPartitions的效率要高，但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时，那么使用mapPartitions并且只创建一次可复用资源的效率更高。

map中只是简单的通过Gson将字符串转换为HashMap对象：

    // 16 9 6 2 4 7 3 4
    var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
    //  6 5 3 2 2 3 2 3

  var sourceMidRowPairRdd = sc.textFile(filePath).map(logLineToMap)

由于操作比较简单，map方法的执行时间普遍要比 mapPartitions 方法快一些，此时使用map更合适。

猜你喜欢

转载自blog.csdn.net/sunrising_hill/article/details/79359203

Spark Rdd map和mapPartitions效率问题

spark RDD和RDD算子

Spark基础和RDD

Spark（二）————RDD变换和RDD Action

Spark RDD算子之RDD 分区操作 -- mapPartitions、mapPartitionsWithIndex、glom

Spark mapPartitions和map

spark rdd 和 DF 转换

【Spark】（二）RDD和算子

Spark工作原理和RDD

spark的灵魂：RDD和DataSet

Spark中的RDD和DataFrame

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

spark map和mapPartitions区别

spark RDD 的map与flatmap区别说明

Spark RDD Map Reduce 基本操作

Spark RDD操作之Map系算子

spark性能调优-rdd重构和rdd持久化

Spark RDD和DataSet与DataFrame转换成RDD

3.2 Spark RDD 基本转换操作5-mapPartitions、mapPartitionsWithIndex

大数据之Spark（二）--- RDD，RDD变换，RDD的Action，解决spark的数据倾斜问题，spark集成hadoop的HA

Spark工作原理 - RDD和算子

Spark RDD弹性表现和来源

Spark RDD、DataFrame和DataSet的区别

关于Spark中RDD的思考和总结

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)