一.运行架构概览 Spark架构是主从模型,分为两层,一层管理集群资源,另一层管理具体的作业,两层是解耦的.第一层可以使用yarn等实现. Master是管理者进程,Worker是被管理者进程,每个Worker节点启动一个Worker进程,了解每台机器的资源有多少,并将这些信息汇报各Master进程. 每个提交的作业程序对应一个Driver和多个Executor,每个Executor执行具体的任务. 图 Spark基本运行架构 二.运行模式 Local 伪分布式 Standalone Yarn/…