Spark任务提交执行全流程详解

Spark任务提交执行流程

Spark任务的本质是对我们编写的RDD的依赖关系切分成一个个Stage，将Stage按照分区分批次的生成TaskSet发送到Executor进行任务的执行

Spark任务分两种：

1、shuffleMapTask：shuffle之后的task

2、resultTask：shuffle之前的task

Spark任务分配有两种方式：

1，尽量打撒方式（系统默认）

2，尽量集中方式

首先把App打包上传到集群上，并开始分配资源及调用包中的主类

然后

在Driver端，调用SparkSubmit类，内部执行submit–>doRunMain–>通过反射获取应用程序的主类对象（远程代理对象）–>执行主类的main方法，这是提交，
Driver端构建SparkConf和SparkContext对象，在SparkContext入口类做了三件事，创建了SparkEnv对象（创建了ActorSystem对象）、TaskScheduler（用来生成并发送task给Executor）、DAGScheduler（用来划分Stage）
ClientActor将任务信息封装到ApplicationDescription对象里并且提交给Master
Master收到ClientActor提交的任务信息后，把任务信息存到内存中，然后又将任务信息放到队列中（waitingApps）
当开始执行这个任务信息时，调用scheduler方法，进行资源调度。
将调度好的资源封装到LaunchExecutor并发送给对应的Worker
Worker接收到Master发送过来的调度信息（LaunchExecutor）后，将信息封装成一个ExecutorRunner对象
封装成ExecutorRunner后，调用ExecutorRunner的Start方法，开始启动CoarseGrainedExecutorBackend对象（启动Executor）
Executor启动后向DriverActor进行反向注册
与DriverActor注册成功后，创建一个线程池（ThreadPool），用来执行任务
当所有Executor注册完成后，意味着作业环境准备好了，Driver端会结束与SparkContext对象的初始化
当Driver初始化完成后（创建了一个sc示例），会持续执行我们自己提交的App的代码，当触发了Action的RDD算子时，就触发了一个job，这时会调用DAGScheduler对象进行Stage划分
DAGScheduler开始进行Stage划分
将划分好的Stage按照分区生成一个一个的task，并且封装到TaskSet对象，然后TaskSet提交到TaskScheduler
TaskScheduler接收到提交过来的TaskSet，拿到一个序列化器对TaskSet序列化，将序列化好的TaskSet封装到LaunchExecutor并提交到DriverActor
DriverActor把LaunchExecutor发送到Executor上
Executor接收到DriverActor发送过来的任务（LaunchExecutor），会将其封装成TaskRunner，然后从线程池中获取线程来执行TaskRunner
TaskRunner拿到反序列化器，反序列化TaskSet，然后执行App代码，也就是对RDD分区上执行的算子和自定义函数

Spark任务提交执行全流程详解

Spark任务提交执行流程

猜你喜欢