Spark集群和任务执行

【前言：承接《Spark通识》篇】

Spark集群组件

Spark是典型的Master/Slave架构，集群主要包括以下4个组件：

Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster

Master：主节点，控制整个集群，监控worker。在Yarn模式中为全局资源管理器

Worker：从节点，负责控制计算节点，启动Executor。类比Yarn中的节点资源管理器

Executor：运算任务执行器，运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask

Spark基本执行流程

以StandAlone运行模式为例：

1. 客户端启动应用程序及Driver相关工作，向Master提交任务申请资源
2. Master给Worker分配资源，通知worker启动executor

3. Worker启动Executor，Worker创建ExecutorRunner线程，ExecutorRunner会启动ExecutorBackend进程，Executor和Driver进行通信（任务分发监听等）

4. ExecutorBackend启动后向Driver的SchedulerBackend注册，SchedulerBackend将任务提交到Executor上运行5.所有Stage都完成后作业结束

笔者强调：

Driver端进行的操作

SparkContext构建DAG图
DAGScheduler将任务划分为stage、为需要处理的分区生成TaskSet
TaskScheduler进行task下发
SchedulerBackend将任务提交到Executor上运行

资源划分的一般规则

获取所有worker上的资源
按照资源大小进行排序
按照排序后的顺序拿取资源

轮询
优先拿资源多的

Spark不同运行模式任务调度器是不同的，如Yarn模式：yarn-cluster模式为YarnClusterScheduler，yarn-client模式为YarnClientClusterScheduler

关注微信公众号：大数据学习与分享，获取更对技术干货

Spark集群和任务执行的更多相关文章

Spark集群无法停止的原因分析和解决
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止.提示: no org.apache.spark.deploy.master.Master to stop ...
使用Docker搭建Spark集群（用于实现网站流量实时分析模块）
上一篇使用Docker搭建了Hadoop的完全分布式:使用Docker搭建Hadoop集群(伪分布式与完全分布式),本次记录搭建spark集群,使用两者同时来实现之前一直未完成的项目:网站日志流量分析 ...
Docker中提交任务到Spark集群
1. 背景描述和需求数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算. 接收程序部署在Docker中,主机不在Hadoop集群上.与Spa ...
如何基于Jupyter notebook搭建Spark集群开发环境
摘要:本文介绍如何基于Jupyter notebook搭建Spark集群开发环境. 本文分享自华为云社区<基于Jupyter Notebook 搭建Spark集群开发环境>,作者:apr鹏 ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
Spark集群的任务提交执行流程
本文转自:https://www.linuxidc.com/Linux/2018-02/150886.htm 一.Spark on Standalone 1.spark集群启动后,Worker向Mas ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
[bigdata] spark集群安装及测试
在spark安装之前,应该已经安装了hadoop原生版或者cdh,因为spark基本要基于hdfs来进行计算. 1. 下载 spark: http://mirrors.cnnic.cn/apache ...
Spark集群部署
Spark是通用的基于内存计算的大数据框架,可以和hadoop生态系统很好的兼容,以下来部署Spark集群集群环境:3节点 Master:bigdata1 Slaves:bigdata2,bigda ...

随机推荐

Java学习day06
[方法] [可以在不是main的方法中调用其他方法] [方法调用时的参数问题] [方法调用] [上面定义了两个class,实际上不推荐] [递归调用] [方法的返回值] [retu ...
【音乐爬虫】Python爬虫-selenium+browsermob-proxy 解决动态网页 js渲染问题
1.一般的python爬虫很简单,直接请求对应网址,解析返回的数据即可,但是有很多网站的数据的js动态渲染的,你直接请求是得不到对应的数据的这时就需要其它手段来处理了. 2.以一个例子来说明,整个过 ...
049 01 Android 零基础入门 01 Java基础语法 05 Java流程控制之循环结构 11 break语句
049 01 Android 零基础入门 01 Java基础语法 05 Java流程控制之循环结构 11 break语句本文知识点:break语句 break语句 break语句前情回顾 1.swi ...
【题解】[CH弱省胡策R2]TATT
本蒟蒻第一道\(K-D-Tree\)维护\(dp\) Question 题目大意:求一条路径,使得其四个维度单调不降. 先排序消掉一维再说. 对于每一个点,初始的时候绝对长度是1啊.于是,先赋值一个1 ...
重装Windows系统入门详解 - 基础教程
重装Windows系统入门详解 - 基础教程 JERRY_Z. ~ 2020 / 10 / 13 转载请注明出处!️ 目录重装Windows系统入门详解 - 基础教程一.说明二.具体步骤 ( ...
多测师讲解python_003.2练习题
# 1.分别打印100以内的所有偶数和奇数并存入不同的列表当中# 2.请写一段Python代码实现删除一个list = [1, 3, 6, 9, 1, 8]# 里面的重复元素不能用set# 3.将字符 ...
elasticsearch练习
elasticsearch练习最近在学习elasticsearch,做了一些练习,分享下练习成果,es基于6.7.2,用kibana处理DSL,有兴趣的伙伴可以自己试试 1.简单查询练习 sourc ...
为Linux的文件管理器创建“在此打开终端”菜单
有些Linux的GUI文件管理器没有右键菜单"在此打开终端",或者有却不能自行指定某种终端. 因为文件夹也有其MIME类型(inode/directory),通过文件关联的方式,把 ...
解决/lib/ld-linux.so.2: bad ELF interpreter: No such file or directory报错（转）
解决/lib/ld-linux.so.2: bad ELF interpreter: No such file or directory报错念淅 2020-01-03 15:02:25 3793 收 ...
centos8平台用NetworkManager/nmcli管理网络
一,centos8上,网络服务的管理需要NetworkManager服务 1,NetworkManager的服务操作启动 [root@localhost network-scripts]# syst ...

Spark集群和任务执行

Spark集群和任务执行的更多相关文章

随机推荐

热门专题