Spark Rdd map和mapPartitions效率问题

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunrising_hill/article/details/79359203

    当map和mapPartitions参数中的方法并没有额外开销时,比如创建数据库连接,申请其他资源时,使用map比mapPartitions的效率要高,但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时,那么使用mapPartitions并且只创建一次可复用资源的效率更高。

map中只是简单的通过Gson将字符串转换为HashMap对象:

    // 16 9 6 2 4 7 3 4
    var sourceMidRowPairRdd = sc.textFile(filePath).mapPartitions(logLineToMap)
    //  6 5 3 2 2 3 2 3       
  var sourceMidRowPairRdd = sc.textFile(filePath).map(logLineToMap)
由于操作比较简单,map方法的执行时间普遍要比 mapPartitions 方法快一些,此时使用map更合适。

猜你喜欢

转载自blog.csdn.net/sunrising_hill/article/details/79359203