本文主要打算对spark内部的序列化机制以及在shuffle map中起衔接作用的MapOutputTracker做一下剖析。主要涉及具体实现原理以及宏观设计的一些思路。

1，spark序列化

任何一个分布式框架，序列化都是其必不可少并且很重要一部分，spark也不例外。spark设计序列化的主要类以及之间的依赖包含关系如下图：

上图中，虚线表示依赖关系，而实线表示继承关系。各个类的解释如下：

a，SerializerManager可以认为是入口类，提供相关实现供外部序列化和反序列化时调用。

b，Serializer主要用来创建SerializerInstance，此类存在的作用主要是处理序列化过程中的多线程问题。

c，SerializationStream/DeSerializationStream具体做序列化，反序列化的抽象类。

此外，还包括以上抽象类的具体的两种序列化方式，java默认的序列化方式以及第三方library的kyro方式。spark默认采用java内生的序列化方式，但是kyro序列化方式能够提供更高的性能（有测试说10倍），所以建议修改序列化方式以优化性能。

2，MapOutputTracker解析

至于为什么要分析这个类，主要是因为在调研一个spark shuffledRDD的的prefer location的问题时碰到了，所以就决定深究一下。

在driver和executor端，MapOutputTracker对应的实现分别是MapOutputTrackerMaster和MapOutputTrackerWorker。总的来说，MapOutputTracker在spark shuffle过程中的map和reduce起着衔接作用。具体点就是：在shuffle map过程中，executor端MapOutputTrackerWorker会将task结束后产生的map状态上报给Driver端的MapOutputTrackerMaster，所以在MapOutputTrackerMaster端保存中spark在shuffle map过程中所有block的相关的详细（包括位置，block大小等信息）。在shuffle reduce的时候，通过读取MapOutputTrackerMaster中的这些位置大小信息，从而决定去远程或者本地fetch相关block数据。

下面就以上过程跟踪一下对应的源码。

a，在executor的任务结束以后，driver端的DAGSchuduler会进行相关处理，对应正常成功结束任务，其中要做的一个事情就是调用MapOutputTrackerMaster的registerMapOutputs方法，将当前shuffleId对应所有MapStatus保存到mapStatuses中。

b，在ShuffledRDD中，调用getPreferredLocations时，会调用MapOutputTracker中的getLocationsWithLargestOutputs函数，在函数中根据每个partition所在位置以及大小信息以及相关参数来决定当前shuffled RDD的perfer location。

此外，在shuffle reduce fetch数据时，也需要想MapOutputTrackerMaster发送GetMapOutputMessage消息，获取当前shuffle对应的map信息，这时driver端会将这些信息序列化以后发送给executor端。

3，小结

本文主要分析了一下spark中序列化的相关设计及主要类的作用。此外，还多shuffle过程中进行信息交互的MapOutTracker做了一下简要分析。尤其是序列化的设计，值得思考和借鉴。

spark序列化及MapOutputTracker解析的更多相关文章

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Spark Streaming揭秘 Day34 解析UI监听模式
Spark Streaming揭秘 Day34 解析UI监听模式今天分享下SparkStreaming中的UI部分,和所有的UI系统一样,SparkStreaming中的UI系统使用的是监听器模式. ...
Android中XML文件的序列化生成与解析
xml文件是非常常用的,在android中json和xml是非常常用的两种封装数据的形式,从服务器中获取数据也经常是这两种形式的,所以学会生成和解析xml和json是非常有用的,json相对来说是比较 ...
Spark 序列化问题
在Spark应用开发中,很容易出现如下报错: org.apache.spark.SparkException: Task not serializable at org.apache.spark.ut ...
Android学习记录（1）—Android中XML文件的序列化生成与解析
xml文件是非常常用的,在android中json和xml是非常常用的两种封装数据的形式,从服务器中获取数据也经常是这两种形式的,所以学会生成和解析xml和json是非常有用的,json相对来说是比较 ...
Spark MLlib LDA 源代码解析
1.Spark MLlib LDA源代码解析 http://blog.csdn.net/sunbow0 Spark MLlib LDA 应该算是比較难理解的,当中涉及到大量的概率与统计的相关知识,并且 ...
Spark SQL源码解析（三）Analysis阶段分析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Analysis阶段概述首先 ...
Spark SQL源码解析（四）Optimization和Physical Planning阶段解析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Spark SQL源码解析(三 ...
Spark SQL源码解析（五）SparkPlan准备和执行阶段
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Spark SQL源码解析(三 ...

随机推荐

数据库的事务与ACID
一.事务: 事务(Transaction),一般是指要做的或所做的事情.在计算机术语中是指访问并可能更新数据库中各种数据项的一个程序执行单元(unit).在计算机术语中,事务通常就是指数据库事务. 二 ...
HTTP服务器用什么组件或者方式比较好
我目前用Indy的HttpServer组件来编写,但遇到一个暂时没有办法解决的问题,就是上传文件到这个HTTPServer,如果文件名包含中文,则会出现乱码.网上查了一下,这是个indy的遗留问题,据 ...
vscode——配置终端集成bash和cmd
前言配置后bash和cmd是集成的,输入bash回车则进入bash,输入cmd回车则进入cmd 步骤首先肯定是需要打开我们的vscode咯~ 进入终端设置配置shell路径根据自己的系统来复制 ...
hdu 4463 Outlets（最小生成树）
题意:n个点修路,要求总长度最小,但是有两个点p.q必须相连思路:完全图,prim算法的效率取决于节点数,适用于稠密图.用prim求解. p.q间距离设为0即可,最后输出时加上p.q间的距离 pri ...
为datanode配置多个数据存储地
datanode配置多个数据存储地址,涉及到以下两个配置项 dfs.name.dir Determines where on the local filesystem the DFS name nod ...
【hdu 5418】 Victor and world
[题目链接] 点击打开链接 [算法] 状压DP f[i][S]表示走的最后一步在i,状态为S 于是我们可以用最短路径 + 状压DP解决此题,由于不存在负边,所以可以用dijkstra+堆优化 [代码] ...
bzoj1025 [SCOI2009]游戏——因数DP
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=1025 这篇博客写得真好呢:https://www.cnblogs.com/phile/p/4 ...
堆、栈的区别 <转载>
本篇非作者原创,转子链接,仅供学习记录. 一.预备知识—程序的内存分配一个由C/C++编译的程序占用的内存分为以下几个部分 1.栈区(stack)— 由编译器自动分配释放 ,存放函数的参数值 ...
k8s-存储卷2-configMap-Secret-十三
一.StorageClass 在前一篇文章中,手动定义了pv,并让pvc关联至pv:现实中在pvc申请存储空间时,未必就有现成的pv符合pvc申请的需求,该怎么办呢? Kubernetes提供了描述存 ...
《编译原理》-用例题理解-自顶向下语法分析及 FIRST，FOLLOW，SELECT集，LL(1)文法
<编译原理>-用例题理解-自顶向下语法分析及 FIRST,FOLLOW,SELECT集,LL(1)文法此编译原理确定某高级程序设计语言编译原理,理论基础,学习笔记本笔记是对教材< ...

spark序列化及MapOutputTracker解析

1，spark序列化

2，MapOutputTracker解析

3，小结

spark序列化及MapOutputTracker解析的更多相关文章

随机推荐

热门专题