[Spark Core] Spark Client Job 提交三级调度框架

山间一棵松 2024-10-10 18:15:10 原文

0. 说明

　　官方文档 Job Scheduling

　　Spark 调度核心组件:

DagScheduler
TaskScheduler
BackendScheduler

1. DagScheduler

　　direct acycle graph , 有向无环图调度器

　　高级调度器，面向的是 stage ，为每个 job 计算 stage 的 DAG 图，跟踪 RDD 和 stage 的输出，找出最小的调度策略来执行 job。

　　该调度器提交 stage 给下层的 Task 调度器，以 taskSet 的形式进行提交。

　　Spark stage 通过将 RDD 进行切割，按照 shuffle 的边界进行切割。具有窄依赖 RDD 的操作串联到每个 stage 的一个 taskset 中。

　　shuffle 依赖的操作划分成两个 stage，上一个 stage 的输出供下一个 stage 进行读取。

　　DAG 调度器决定运行每个 task 的首选位置。

　　DAG 调度器处理因 stage 输出文件丢失导致的故障，该种情况下，之前的 stage 需要被重新提交。

　　其他原因的故障由 task 调度器来处理。

　　- Job
　　ActiveJob,用户调用 action 方法时，job 通过 submitJob 方法进行提交。每个 job 需要多个阶段.

　　- Stages
　　ShuffleMapStage
　　ResultStage

　　- Tasks
　　Spark 执行单位，需要将每个 task 发送给主机来执行。

　　- Cache tracking:
　　Dag 调度器能够找出哪些 RDD 被缓存了，避免 rdd 的重复计算。

　　- Preferred locations
　　Dag 调度器计算运行 task 的首选位置。

　　- Cleanup:

　　当依赖他们的运行时的 Job 完成之后清除所有数据结构，防止内存泄露。

[Spark Core] Spark Client Job 提交三级调度框架的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
【待补充】[Spark Core] Spark 实现标签生成
0. 说明在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签,分别用 Scala & Java 两种代码实现. 1. 准备 1.1 pom.xml <depend ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
[Spark Core] Spark 实现气温统计
0. 说明聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile(" ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...
Spark Core 资源调度与任务调度（standalone client 流程描述）
Spark Core 资源调度与任务调度(standalone client 流程描述) Spark集群启动: 集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资 ...

随机推荐

MQ5.3在redhat9上的安装
一．准备工作 1.安装linux软件包确保系统中有libgcc_s.so和libstdc++.so.3. 如无意外,libgcc_s.so在redhat中已经存在,存放路径为:/usr/lib/gc ...
mongodb操作技巧
1.添加字段或更新值 db.getCollection('test').updateMany( {}, { $set:{ 'createTime':'2017-06-29 08:08', 'updat ...
[九省联考2018] 一双木棋 chess
Description 菲菲和牛牛在一块n 行m 列的棋盘上下棋,菲菲执黑棋先手,牛牛执白棋后手. 棋局开始时,棋盘上没有任何棋子,两人轮流在格子上落子,直到填满棋盘时结束. 落子的规则是:一个格子可 ...
java面向对象基础(三)：对象转型和多态
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
并发编程之 Semaphore 源码分析
前言并发 JUC 包提供了很多工具类,比如之前说的 CountDownLatch,CyclicBarrier ,今天说说这个 Semaphore--信号量,关于他的使用请查看往期文章并发编程之线程 ...
c# 调试运行后,debug目录为空
运行模式切换到debug,debug目录才有.点运行按钮边上不是有 release ,点一下,换成debug
在VS2010中使用Git管理源代码
前文我们讲了使用TortoiseGit管理源代码,但是对于使用VS2010的朋友来说,源代码管理起来还是不怎么方便.要是直接在VS2010中能使用Git就好了,下面我们就来看看怎么在VS2010中使用 ...
微信支付统一下单字段 body 为中文时报【签名错误】解决方案（C# SDK）
方案一如果你是从微信支付官网下载的 .NET C#[微信支付]API对应的SDK 调用示例查看源码,会发现这个SDK中的 WxPayData 的类的 CalcHMACSHA256Hash 签名方法 ...
jQuery.Form.js 异步提交表单使用总结
jQuery.Form.js 是一个用于使用jQuery异步提交表单的插件,它使用方法简单,支持同步和异步两种方式提交. 第一步:引入jQuery与jQuery.Form.js <script ...
docker 第一次学习（一）--安装以及相关命令
转自:https://www.jianshu.com/p/c69a2a3b4c7a https://docs.docker.com/ http://www.dockerinfo.net/documen ...