本文以Spark执行模式中最常见的集群模式为例,详细的描述一下Spark程序的生命周期(YARN作为集群管理器). 1.集群节点初始化 集群刚初始化的时候,或者之前的Spark任务完成之后,此时集群中的节点都处于空闲状态,每个服务器(节点)上,只有YARN的进程在运行(环境进程不在此考虑范围内),集群状态如下所示: 每个节点服务器上都有一个YARN的管理器进程在检测着服务器的状态.蓝色的是YARN主节点. 2.创建Spark驱动器进程 如上图所示,客户端将程序包(jar包或代码库)提交到集群管理…