Spark技术内幕：Storage 模块整体架构

Storage模块负责了Spark计算过程中所有的存储，包括基于Disk的和基于Memory的。用户在实际编程中，面对的是RDD，可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化；持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据，也都是由Storage模块管理的。可以说，RDD实现了用户的逻辑，而Storage则管理了用户的数据。本章将讲解Storage模块的实现。

1.1 模块整体架构

org.apache.spark.storage.BlockManager是Storage模块与其他模块交互最主要的类，它提供了读和写Block的接口。这里的Block，实际上就对应了RDD中提到的partition，每一个partition都会对应一个Block。每个Block由唯一的Block ID（org.apache.spark.storage.RDDBlockId）标识，格式是"rdd_" + rddId + "_" + partitionId。

BlockManager会运行在Driver和每个Executor上。而运行在Driver上的BlockManger负责整个Job的Block的管理工作；运行在Executor上的BlockManger负责管理该Executor上的Block，并且向Driver的BlockManager汇报Block的信息和接收来自它的命令。

各个主要类的功能说明：

1) org.apache.spark.storage.BlockManager：提供了Storage模块与其他模块的交互接口，管理Storage模块。

2) org.apache.spark.storage.BlockManagerMaster： Block管理的接口类，主要通过调用org.apache.spark.storage.BlockManagerMasterActor来完成。

3) org.apache.spark.storage.BlockManagerMasterActor：在Driver节点上的Actor，负责track所有Slave节点的Block的信息

4) org.apache.spark.storage.BlockManagerSlaveActor：运行在所有的节点上，接收来自org.apache.spark.storage.BlockManagerMasterActor的命令，比如删除某个RDD的数据，删除某个Block，删除某个Shuffle数据，返回某些Block的状态等。

5) org.apache.spark.storage.BlockManagerSource：负责搜集Storage模块的Metric信息，包括最大的内存数，剩余的内存数，使用的内存数和使用的Disk大小。这些是通过调用org.apache.spark.storage.BlockManagerMaster的getStorageStatus接口实现的。

6) org.apache.spark.storage.BlockObjectWriter：一个抽象类，可以将任何的JVM object写入外部存储系统。注意，它不支持并发的写操作。

7) org.apache.spark.storage.DiskBlockObjectWriter：支持直接写入一个文件到Disk，并且还支持文件的append。实际上它是org.apache.spark.storage.BlockObjectWriter的一个实现。现在下面的类在需要Spill数据到Disk时，就是通过它来完成的：

a) org.apache.spark.util.collection.ExternalSorter

b) org.apache.spark.shuffle.FileShuffleBlockManager

8) org.apache.spark.storage.DiskBlockManager：管理和维护了逻辑上的Block和存储在Disk上的物理的Block的映射。一般来说，一个逻辑的Block会根据它的BlockId生成的名字映射到一个物理上的文件。这些物理文件会被hash到由spark.local.dir（或者通过SPARK_LOCAL_DIRS来设置）上的不同目录中。

9) org.apache.spark.storage.BlockStore：存储Block的抽象类。现在它的实现有：

a) org.apache.spark.storage.DiskStore

b) org.apache.spark.storage.MemoryStore

c) org.apache.spark.storage.TachyonStore

10) org.apache.spark.storage.DiskStore：实现了存储Block到Disk上。其中写Disk是通过org.apache.spark.storage.DiskBlockObjectWriter实现的。

11) org.apache.spark.storage.MemoryStore：实现了存储Block到内存中。

12) org.apache.spark.storage.TachyonStore：实现了存储Block到Tachyon上。

13) org.apache.spark.storage.TachyonBlockManager：管理和维护逻辑上的Block和Tachyon文件系统上的文件之间的映射。这点和org.apache.spark.storage.DiskBlockManager功能类似。

14) org.apache.spark.storage.ShuffleBlockFetcherIterator：实现了取Shuffle的Blocks的逻辑，包括读取本地的和发起网络请求读取其他节点上的。具体实现可以参照《Shuffle模块详解》。

如果您喜欢本文，那么请动一下手指支持以下博客之星的评比吧。非常感谢您的投票。每天可以一票哦。

点我投票

Spark技术内幕：Storage 模块整体架构的更多相关文章

Spark技术内幕：Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463 当触发一个RDD的action后,以count为例,调用关系如下: org.apache. ...
Spark技术内幕: Task向Executor提交的源码解析
在上文<Spark技术内幕:Stage划分及提交源码分析>中,我们分析了Stage的生成和提交.但是Stage的提交,只是DAGScheduler完成了对DAG的划分,生成了一个计算拓扑, ...
Spark技术内幕：Master的故障恢复
Spark技术内幕:Master基于ZooKeeper的High Availability(HA)源码实现详细阐述了使用ZK实现的Master的HA,那么Master是如何快速故障恢复的呢? 处于 ...
Spark技术内幕: Task向Executor提交的源代码解析
在上文<Spark技术内幕:Stage划分及提交源代码分析>中,我们分析了Stage的生成和提交.可是Stage的提交,仅仅是DAGScheduler完毕了对DAG的划分,生成了一个计算拓 ...
我的第一本著作：Spark技术内幕上市！
现在各大网站销售中! 京东:http://item.jd.com/11770787.html 当当:http://product.dangdang.com/23776595.html 亚马逊:http ...
Spark技术内幕：Master基于ZooKeeper的High Availability（HA）源码实现
如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure).Spark可以 ...
社区布道师揭秘消息中间件技术内幕，撰写MQ架构设计与实现原理
RocketMQ是什么 RocketMQ是由阿里捐赠给Apache的一款分布式.队列模型的开源消息中间件,经历了淘宝双十一的洗礼. RocketMQ的特性 RocketMQ基本概念 Client端 P ...
Spark技术内幕：Shuffle Read的整体流程
回忆一下,每个Stage的上边界,要么需要从外部存储读取数据,要么需要读取上一个Stage的输出:而下边界,要么是需要写入本地文件系统(需要Shuffle),以供childStage读取,要么是最后一 ...
Spark技术内幕：Worker源码与架构解析
首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位: Worker所起的作用有以下几个: 1. 接受Master的指令,启动或者杀掉Executor 2. 接受Master的指 ...

随机推荐

[LeetCode] Remove 9 移除9
Start from integer 1, remove any integer that contains 9 such as 9, 19, 29... So now, you will have ...
hdu2669与hdu1576（扩展欧几里德）
模板: int Extend_Euclid(int a, int b, int &x, int &y){ if(b == 0){ x = 1; ...
hdu 5479（括号问题）
题意:类似"()","(())","()()" 是匹配的, 而 "((", ")(", " ...
CSS3中三种清除浮动（float）的方法
方法一:添加新的元素 .应用 clear:both .clear{ clear:both; height:; height:; overflow:hidden; } 方法二:父级div定义 overf ...
C++ 中私有继承、保护继承与公有继承
区别下面通过一个示例来介绍三种继承的区别. 定义一个基类(假设为一个快退休的富豪): class RichMan { public: RichMan(); ~RichMan(); int m_com ...
PSR-4 自动加载器
div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,big,cite,cod ...
微信小程序开发导入文件说没找到.json的问题
这个真的坑爹网上的答案也没几个靠谱说白了就是找个空文件直接创建然后复制粘贴反应了这玩意ide不成熟进去之后直接创了个quick start的源码也就是我们看的这个网页建议我们下载的源码老 ...
Nginx配置二级目录/路径映射不同的反向代理和规避IP+端口访问
当配置Nginx来映射不同的服务器可以通过二级路径来反向代理来解决一个外网端口实现多个服务访问. 配置如下: server { listen ; server_name demo.domai ...
CI表单验证
=================Form辅助函数==================== 1.在视图文件中导入:$this->load->helper("form") ...
c++自定义类型
/* --自定义数据类型结构体共用体共用体的数据成员在存储数据时共享存储空间,修改一个成员也会改变另一个成员的值枚举型如果要使变量只能使用有限的几个值,则应当使用枚举体.之所以叫枚举体,就是 ...

Spark技术内幕：Storage 模块整体架构

1.1 模块整体架构

Spark技术内幕：Storage 模块整体架构的更多相关文章

随机推荐

热门专题