Spark Core快速入门系列(9) | Spark读取文件的切片规则 - 代码天地

Spark Core快速入门系列(9) | Spark读取文件的切片规则

其他 2020-09-08 19:47:17 阅读次数: 0

目录

读取文件的切片规则
如果找不到源码-分享步骤

读取文件的切片规则

截取了源码重要的部分

//所有的文件
FileStatus[] files = listStatus(job);
//记录所有文件的总大小
//numSlits是minPartitions=2
long totalSize = 0;
long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
//前部分没有配置，那么就是1   minSplitSize看源码也是1
long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);
//保存所有切片
ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);
如果文件可以切割
if (isSplitable(fs, path)) {
      //local：32M   集群：128M
      long blockSize = file.getBlockSize();
      long splitSize = computeSplitSize(goalSize, minSize, blockSize);
//用来记录文件切后剩余的大小
bytesRemaining -= splitSize;

那举个列子一共有4个文件
a.txt 100k b.txt 100k c.txt 100k d.txt 400k
请问一个有几个切片?
答案:5个
在这里插入图片描述

在这里插入图片描述
前三个文件100k 只有一个切片

如果找不到源码-分享步骤

看源码
先ctrl+左键点击testFile
在这里插入图片描述

找到getPartitions

ctrl+h

找到这里就可以了

猜你喜欢

转载自blog.csdn.net/qq_46548855/article/details/108137565

Spark Core快速入门系列(9) | Spark读取文件的切片规则

Spark Core快速入门系列(2) | Spark对集合的切片原理

Spark Core快速入门系列(9) | RDD缓存和设置检查点

Spark Core快速入门系列(7) | Spark Job 的划分

Spark Core快速入门系列(6) | Spark序列化

Spark Core快速入门系列(5) | Spark中job的划分

Spark Core快速入门系列(8) | RDD 的持久化

Spark Core快速入门系列(3) | ＜Transformation＞转换算子

Spark Core快速入门系列(6) | RDD的依赖关系

Spark Core快速入门系列(5) | RDD 中函数的传递

Spark Core快速入门系列(8) | HashPartitioner和RangePartitioner

Spark Core快速入门系列(4) | RDD的转换(transformation)

Spark Core快速入门系列(1) | 运行模式-4种

Spark Core快速入门系列(11) | 文件中数据的读取和保存

Spark Core快速入门系列(2) | Spark Core中编程模型的理解与RDD的创建

Spark VectorSlice 向量切片

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

【Spark】(二) Spark Core

Spark Core快速入门系列(4) | ＜Action＞行动算子转换算子

Spark Core快速入门系列(10) | Key-Value 类型 RDD 的数据分区器

Spark Core快速入门系列(12) | 变量与累加器问题

Spark Core快速入门系列(10) | 累加器+广播变量

Spark Core快速入门系列(7) | RDD的持久化和检查点

Spark Core快速入门系列(3) | RDD的依赖关系(宽依赖和窄依赖)

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark Streaming 快速入门系列(1) | Spark Streaming 的简单介绍！

Spark Streaming快速入门系列(1) | Spark Streaming概述

Spark Streaming快速入门系列（7）

Spark : Spark入门

【Spark】(一) Spark入门

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)