SparkOnYarn(cluster)
1.由客户端向ResourceManager提交请求,上传jar包和配置参数到RM分配的HDFS路径
2.ResuurceManager向NodeManager申请资源,创建Spark ApplicationMaster(每一个SparkContext都有一个appmaster)
3.NM启动ApplicationMaster,并向RMMaster注册
4.ApplicationMaster找到HDFS中的文件,启动SparkContext、DAGScheduler和和YARN Cluster Scheduler
5.RS向RSM注册申请container
6.RM通知NM分配Container(每个Container对应一个executor)
7.Spark ApplicationMaster直接和Container(executor)进行交互,完成分布式任务
8.程序运行完后applicationMaster向RM注销自己
cluster模式下driver运行在集群中,其实是在ApplicationMaster这个进程中