Spark RDD中repartition和coalesce的区别 - 代码天地

Spark RDD中repartition和coalesce的区别

其他 2020-06-28 11:28:15 阅读次数: 0

1、repartition

repartition会根据用户传入的分区数重新通过网络分区所有数据，它会产生shuffle过程，所以是一个重型操作。

    val kv1: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 11),
      ("zhangsan", 12),
      ("lisi", 13),
      ("wangwu", 14)
    ))
    val kv2: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 21),
      ("zhangsan", 12),
      ("zhangsan", 22),
      ("lisi", 23),
      ("zhaoliu", 28)
    ))
    
    val value1: RDD[(String, Int)] = kv1.repartition(3)  ##结果：3
    println(value1.partitions.length)

2、coalesce

coalesce同样对用户传入的分区数进行分区，但是它不会产生shuffle过程。我们知道，DAGScheduler创建Task的数量取决于Stage的最后一个RDD的分区数，如果不进行shuffle，那么coalesce根本无法精准控制分区数。

    val kv1: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 11),
      ("zhangsan", 12),
      ("lisi", 13),
      ("wangwu", 14)
    ))
    val kv2: RDD[(String, Int)] = sc.parallelize(List(
      ("zhangsan", 21),
      ("zhangsan", 12),
      ("zhangsan", 22),
      ("lisi", 23),
      ("zhaoliu", 28)
    ))
    val value: RDD[(String, Int)] = kv1.coalesce(5)
    println(value.partitions.length)  ##结果：1

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_37163925/article/details/106225249

Spark RDD中repartition和coalesce的区别

Spark中repartition和coalesce的用法

Spark RDD 之 repartition/coalesce 源码浅谈

Spark源码系列:RDD repartition、coalesce 对比

spark部分：改变rdd的分区数coalesce，repartition，glom,randomSplit的区别

Spark学习-Coalesce()方法和rePartition()方法

Spark部分：重新分区（repartition和coalesce）

spark的coalesce和repartition算子管理分区

Spark中repartition和partitionBy的区别

[Spark基础]--repartition vs coalesce

Spark:DataFrame repartition、coalesce 对比

Spark基础 repartition vs coalesce

Spark 重分区coalesce和repartition,合并小文件

3.2 Spark RDD 基本转换操作2-分区：coalesce、repartition

coalesce和repartition的区别

spark中reparation和coalesce的用法和区别

Spark repartition与coalesce对分区的操作

Spark transformation算子之coalesce&&repartition

Spark中RDD、DataFrame和DataSet的区别

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（二）

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（一）

使用COALESCE和REPARTITION解决SPARK SQL（hadoop）小文件过多的问题

spark reparation和coalesce

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T]的区别

spark教程(11)-RDD-DF-DS 汇总 Spark中RDD、DataFrame和DataSet的区别

Spark中的RDD和DataFrame

spark中cache和persist的区别，rdd缓存源码解析

Spark中RDD和DataFrame、DataSet的区别?---面试题

Spark中RDD、DataFrame和DataSet三者的区别

Spark中RDD与DataFrame与DataSet的区别与联系

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)