Spark中持久化persist算子详解介绍

在这里插入图片描述

在 Spark 中,persist()cache() 方法用于将 RDD 的计算结果保存到内存或其他存储设备中,以便在后续的计算中重复使用,从而避免了重复计算的开销。这种技术通常被称为持久化。

以下是persist的详解介绍:

存储级别

Spark 提供了不同的存储级别,允许用户根据具体需求选择不同的持久化策略。常用的存储级别包括:

  • MEMORY_ONLY:将 RDD 的计算结果保存在 JVM 的堆内存中。如果内存空间不足,那些不适合存放在内存中的分区将不会被缓存,并且在后续使用时需要重新计算。
  • MEMORY_AND_DISK:将 RDD 的计算结果保存在 JVM 的堆内存中。如果内存空间不足,那么这些超出内存容量的分区会被写到磁盘中。
  • MEMORY_ONLY_SER

猜你喜欢

转载自blog.csdn.net/m0_47256162/article/details/132377281