spark源码解析总结
========== Spark 通信架构 ==========

1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。
最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间无法通信,即 akka 兼容性问题。
2、RpcEnv:RPC 上下文环境,每个 Rpc 端点运行时依赖的上下文环境称之为 RpcEnv。类似于 SparkContext,默认由 NettyRpcEnv 实现,由 NettyRpcEnvFactory 创建 RpcEnv。
3、RpcEndpoint:RPC 端点,Spark 针对于每个节点(Client/Master/Worker)都称之一个 Rpc 端点且都实现 RpcEndpoint 接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用 Dispatcher。代理是 RpcEndpointRef。
4、Dispatcher:消息分发器,针对于 RPC 端点需要发送消息或者从远程 RPC 接收到的消息,分发至对应的指令收件箱/发件箱。
5、Inbox:指令消息收件箱,一个本地端点对应一个收件箱,Dispatcher 在每次向 Inbox 存入消息时,都将对应 EndpointData 加入内部待 Receiver Queue 中。
6、OutBox:指令消息发件箱,一个远程端点对应一个发件箱,当消息放入 Outbox 后,紧接着将消息通过 TransportClient 发送出去。
7、TransportClient:Netty 通信客户端,主要负责将相对应的 OutBox 中的数据发送给远程 TransportServer。
8、TransportServer:Netty 通信服务端,主要用于接收远程 RpcEndpoint 发送过来的消息,并把消息传送给 Dispatcher。
========== Spark 脚本解析 ==========
1、start-slave.sh 用于启动 slave 节点,最终启动的类是 org.apache.spark.deploy.worker.Worker 类。
2、start-master.sh 用于启动 master 节点,最终启动的类是 org.apache.spark.deploy.master.Master 类。
3、spark-submit 和 spark-shell 最终都会调用 spark-class 脚本,通过 spark-class 脚本启动相对应的入口类。
========== Spark standalone 模式启动流程 ==========

1、Master 和 Worker 都继承了 RpcEndpoint 类,成为了具体的消息发送与接收端点,整个应用是利用 Actor 模型实现的异步消息通信架构。
2、Master 节点在启动的时候的主要任务是创建了通信架构中的 RpcEnv,并注册了 Master 成为端点。
3、Worker 节点在启动的时候的主要任务是创建了通信架构中的 RpcEnv,并注册了 Worker 成为端点,并且获取了 Master 端点的代理,通过端点代理向 Master 发送消息。
4、Worker 节点在启动的时候执行 onStar 方法,向 Master 进行了注册。
========== Spark 应用提交流程 ==========

1、Driver 提交流程:用户通过 spark-submit 将 jar 包和相对应的参数提交给 spark 框架,内部实现是通过 ClientEndpoint 向 Master 发送了 RequestSubmitDriver 消息,Master 获取消息之后通过 Worker 进行 LaunchDriver 操作。
2、Driver 的进程启动:主要通过 Worker 节点的 DriverRunner 来启动整个的 Driver 进程。
3、注册 Application:Driver 进程在启动之后,通过 SparkContext 的初始化操作,创建了对应的 StandaloneSchedulerBackend,实现了向 Master 进行当前应用的注册。
4、启动 Executor 进程:当 Driver 向 Master 进行注册之后,Master 通过 scheduler() 方法来对当前的 App 进行 Executor 的分配,实现上是通过 Worker 的 ExecutorRunner 来进行 Executor 的创建和运行。
5、启动 Task 运行:当 Driver 收到所有的 Executor 资源后,通过 RDD 的 action 操作,触发 SparkContext.runJob 方法,进而调用 Dagscheduler() 方法进行当前 DAG 的运行。通过向 Executor 发送 LaunchTask 消息来启动 Executor 上的任务运行。
6、Task 运行完成:当 Executor 运任务完成之后,会通知 Driver 当前任务的运行状态,然后执行任务 或者退出整个应用。
========== Spark shuffle 过程 ==========
MapReduce Shuffle 过程:
1、在 spill(刷写)阶段,数据直接写入到 kvbuffer 数据缓冲器中。会写两种类型的数据。一种是 kvmeta 数据,用于存放分区信息、索引信息;另一种是 (k, v) 对类型的数据,是实际的数据。
2、会以一个起点反向来写,即当遇到 spill 进程启动的时候,写入点会重新进行选择。
Hash Shuffle 过程:
1、未优化版本,每一个 task 任务都会根据 reduce 任务的个数创建对应数量的 bucket,bucket 其实就是写入缓冲区,每一个 bucket 都会存入一个文件,这个文件叫做 blockfile。最大的缺点是:产生的文件过多。
2、在优化版本中,主要通过 consolidation 这个参数进行优化,实现了 ShuffleFileGroup 的概念,不同批次的 task 任务可以复用最终写入的文件,来整体减少文件的数量。
Sort Shuffle 过程:
1、Sort Shuffle 整个过程的实现和 MapReduce Shuffle 过程类似。
2、Bypass 机制:Hash Shuffle 在 reduce 的数量比价少的时候性能要比 Sort Shuffle 要高,所以如果你的 reduce 的数量少于 Bypass 定义的数值的时候,Sort Shuffle 在 task 任务写出的时候会采用 Hash 方式,而不会采用 ApplyOnlyMap 以及排序的方法。
========== Spark 内存管理与分配 ==========
1、内存分配模式:静态分配和统一分配。静态分配就是固定大小分配,统一分配就是存储区和 Shuffle 区可以动态占用。
2、有几种内存配置模式:
(1)other 区,一般占用 20% 的内存区域,主要是用于代码运行以及相关数据的运行。
(2)Execution 区,这个区域一般占用 20% 的内存区域,主要用于 Shuffle 过程的内存消耗,通过 spark.shuffle.memeoryFaction 参数进行控制。
(3)Storage 区,这个区域主要用于 RDD 的缓存,通过 spark.storage.memeoryFaction 参数进行控制。
3、spark 目前支持堆内内存和堆外内存,堆外内存主要用于存储序列化后的二进制数据。
========== Spark 部署模式 ==========
spark源码解析总结的更多相关文章
- Spark 源码解析:TaskScheduler的任务提交和task最佳位置算法
上篇文章< Spark 源码解析 : DAGScheduler中的DAG划分与提交 >介绍了DAGScheduler的Stage划分算法. 本文继续分析Stage被封装成TaskSet, ...
- Spark 源码解析 : DAGScheduler中的DAG划分与提交
一.Spark 运行架构 Spark 运行架构如下图: 各个RDD之间存在着依赖关系,这些依赖关系形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG,进行Stage划分,划分的规 ...
- Scala实战高手****第4课:零基础彻底实战Scala控制结构及Spark源码解析
1.环境搭建 基础环境配置 jdk+idea+maven+scala2.11.以上工具安装配置此处不再赘述. 2.源码导入 官网下载spark源码后解压到合适的项目目录下,打开idea,File-&g ...
- Spark源码解析 - Spark-shell浅析
1.准备工作 1.1 安装spark,并配置spark-env.sh 使用spark-shell前需要安装spark,详情可以参考http://www.cnblogs.com/swordfall/p/ ...
- spark源码解析大全
第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统,它提供了 High-level 编程 API,支持 Scala.Java 和 Pytho ...
- Scala实战高手****第7课:零基础实战Scala面向对象编程及Spark源码解析
/** * 如果有这些语法的支持,我们说这门语言是支持面向对象的语言 * 其实真正面向对象的精髓是不是封装.继承.多态呢? * --->肯定不是,封装.继承.多态,只不过是支撑面向对象的 * 一 ...
- spark源码解析之基本概念
从两方面来阐述spark的组件,一个是宏观上,一个是微观上. 1. spark组件 要分析spark的源码,首先要了解spark是如何工作的.spark的组件: 了解其工作过程先要了解基本概念 官方罗 ...
- spark源码解析之scala基本语法
1. scala初识 spark由scala编写,要解析scala,首先要对scala有基本的了解. 1.1 class vs object A class is a blueprint for ob ...
- Scala实战高手****第6课 :零基础实战Scala集合操作及Spark源码解析
本课内容1.Spark中Scala集合操作鉴赏2.Scala集合操作实战 --------------------------------------------------------------- ...
随机推荐
- Spring 依赖注入(DI)简介
依赖注入的英文表示为dependency injection,缩写为DI. Spring框架的核心功能之一就是通过依赖注入的方式来管理Bean之间的依赖关系. 当编写一个复杂的 Java 应用程序时, ...
- poj3308 最小点权覆盖
Paratroopers Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 8837 Accepted: 2663 Desc ...
- CF1013D Chemical table
题目链接:http://codeforces.com/contest/1013/problem/D 题目大意: 给出一个 \(n \times m\) 的表格,表格上有一些初始点.若有这样的三个点:\ ...
- CukeTest+Puppeteer的Web自动化测试(二)
上一篇我们讲了CukeTest+Puppeteer的相关理论知识,带大家认识熟悉了CukeTest如何运行与如何编写剧本,Puppeteer大体的理论体系与如何结合使用,但一直没有给大家进行上手实战操 ...
- Node.js躬行记(1)——Buffer、流和EventEmitter
一.Buffer Buffer是一种Node的内置类型,不需要通过require()函数额外引入.它能读取和写入二进制数据,常用于解析网络数据流.文件等. 1)创建 通过new关键字初始化Buffer ...
- 解决docker创建的elasticsearch-head容器不能连接elasticsearch等问题
在使用docker创建elasticsearch-head容器去连接elasticsearch的时候,容易出两个问题 1.不能连接elasticsearch 修改elasticsearch.yml文件 ...
- 如何理解Java中的自动拆箱和自动装箱?
小伟刚毕业时面的第一家公司就被面试官给问住了... 如何理解Java中的自动拆箱和自动装箱? 自动拆箱?自动装箱?什么鬼,听都没听过啊,这...这..知识盲区... 回到家后小伟赶紧查资料,我透,这不 ...
- 2020年,哪一款远程桌面(VPS管理器)最值得你期待
上周,我得知到,iis7远程桌面版本又更新的消息.进入该网站一看,果然如此. 通道:IIS7远程桌面V2.0.1 版本 最新程序截图如下,和老版本相比,果然又高大上了很多:
- ASP.NET关于书籍详情和删除的Demo(HttpHandler进行页面静态化[自动生成html网页]+Entity Framework通过类创建数据库+EF删查)
这次的Demo如标题所示, 首先第一步EF创建数据库 创建两个类,一个是图书类,一个是图书类别的类 using System; using System.Collections.Generic; us ...
- Java实现 蓝桥杯VIP 算法训练 连通分块(并查集)
试题 算法训练 连通分块 资源限制 时间限制:200ms 内存限制:8.0MB 问题描述 连通分块 输入格式 输入的第一行包含两个整数n, m n代表图中的点的个数,m代表边的个数 接下来m行,每行2 ...