Spark分析之BlockManager

BlockManager中存储block的流程： doPut()方法

入参：blockId, data, level, tellMaster

1）为block创建BlockInfo并加锁使其不能被其他线程访问；

2）按照block的存储级别：useMemory, useOffHeap, useDisk进行存储，并标识该block可以被其他线程访问；

　　注：只要使用了useMemory，就算也使用了useDisk,一开始也只会存在内存中，而不会立即存储到硬盘上，只有等内存不够时才会将部分partition数据drop到硬盘上。

3）tellMaster=true（默认就时true）： reportBlockStatus(blockId, putBlockInfo, putBlockStatus)

　　通知BlockManagerMaster有新的数据写入，在BlockManagerMaster中更新Block信息

4）根据block的replication数决定是否将该block备份到其他节点（异步）

　　1）存储结果是序列化后的字节数组

　　2) 存储结果是没有序列化的值

　　　　备份数据的序列化：序列化成字节数组；先压缩再序列化

　　　　默认的压缩是snappy，可以通过spark.io.compression.codec参数进行配置；

　　　　序列化默认使用的是org.apache.spark.serializer.JavaSerializer，可以通过spark.serializer参数进行配置；在创建BlockManager时设定；

bytesAfterPut = dataSerialize(blockId, valuesAfterPut)  //数据序列化

replicate(blockId, bytesAfterPut, putLevel){ //数据备份到其他节点

    val putBlock = PutBlock(blockId, data, eLevel)

    val cmId = new ConnectionManagerId(host, port)

    BlockManagerWorker.syncPutBlock(putBlock, cmId)

}

BlockManagerWorker 以防止数据丢失的时候还能够恢复，进行数据的备份操作，将数据拷贝到其他节点（异步）
ConnectionManager 负责与其它计算结点建立连接，并负责数据的发送和接收

BlockManager获取block的流程：get()方法

//Get a block from the block manager (either local or remote).

def get(blockId: BlockId): Option[BlockResult] = {

    val local = getLocal(blockId)  //调用doGetLocal()方法

    if (local.isDefined) {

      return local

    }

    val remote = getRemote(blockId) //调用doGetRemote()方法

    if (remote.isDefined) {

      return remote

    }

    None

}

1）先从本地的BlockManager查找：依次从useMemory, useOffHeap, useDisk去查找；

根据blockid获得到对应的blockinfo(该blockinfo被加锁了)，获取到该blockinfo的storagelevel，进入如下分支进行查找：

　　level.useMemory 从Memory中取出block并返回，如果没有就进入下一个分支；

　　level.useOffHeap 从Tachyon中取出block并返回，如果没有就进入下一个分支；

　　level.useDisk

　　　　level.useMemory==true 将block从disk中读出并写入内存以便下次使用时从内存中获取，同时返回该block；

　　　　level.useMemory==false 将block从disk中读出并返回；

2）本地获取不到再从远端（executor）的BlockManager去查找（BlockManagerWorker.syncGetBlock）

　　获得该block的location信息；

　　根据location向远端发送请求获取block，只要有一个远端返回block该函数就返回而不继续发送请求；

注：通常情况下spark任务的分配时根据block的分布决定的，任务往往会被分配到拥有block的节点上，因此getLocal()就能找到所需要的block；但在资源有限的情况下，spark会将任务调度到与block不同的节点上，这样就必须通过getRemote()来获得block。

Spark分析之BlockManager的更多相关文章

spark的存储系统--BlockManager源码分析
spark的存储系统--BlockManager源码分析根据之前的一系列分析,我们对spark作业从创建到调度分发,到执行,最后结果回传driver的过程有了一个大概的了解.但是在分析源码的过程中也 ...
使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou 前言我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...
[大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
Spark分析之Job Scheduling Process
经过前面文章的SparkContext.DAGScheduler.TaskScheduler分析,再从总体上了解Spark Job的调度流程 1.SparkContext将job的RDD DAG图提交 ...
使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
使用Spark分析拉勾网招聘信息(三): BMR 入门
简述本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR的最佳实践,但绝对可以帮助初学者,迅速入门,能够专心于 ...
使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
Spark分析之TaskScheduler
TaskScheduler概述: TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度.主要功能如下: 1.一个TaskScheduler只为一 ...
Spark分析之SparkContext启动过程分析
SparkContext作为整个Spark的入口,不管是spark.sparkstreaming.spark sql都需要首先创建一个SparkContext对象,然后基于这个SparkContext ...

随机推荐

OO面向对象课程总结
测试与正确性论证的效果差差异测试和正确性论证都是对程序进行可靠性的验证. 测试: IEEE提出了对软件测试的定义:使用人工或者自动的手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求 ...
实习第二天-String对象的不可变性-未解决
public class Reverse { public static void main(String[] args) { String c1=new String("abc" ...
一个简单的批量更新oracle 数据库中最近的服务商名称的数据
有一个需求是这样的,我们需要更新数据库中的数据,数据时这样的 1.大约50万以上 2. 数据中有较多的重复数据 3. 需要将表中最近的代理商的名称赋值给行中的服务商名称 4. 代理商的名称可能有多个, ...
wcat 进行iis 压力测试
如何建立起WCAT Microsoft的Web容量分析工具(WCAT) 是测试你的客户-服务器网络配置的必备工具.这个工具在你的网络上对多种工作量的场景进行仿真,允许你确定你的网络和服务器的最佳配置. ...
Nginx 安装成Windows 服务方法
1. 下载nginx windows版本 http://www.nginx.org 2. 下载微软的2个工具: instsrv.exe.srvany.exe 去微软网站下载安装Windows Serv ...
SQL——ROW_NUMBER
版权声明:欢迎转载,请注明出处 https://blog.csdn.net/suneqing/article/details/30250193 语法: ROW_NUMBER() OVER(PARTIT ...
pthread中errors.h的代码
#ifndef __errors_h #define __errors_h #include <unistd.h> #include <errno.h> #include &l ...
Javascript 的严格模式 use strict
严格模式 "use strict"; x = 5; 这时浏览器会报错.
什么是Map-Reduce
Map-Reduce本身并不是算法:而是一种处理模式:因为在大数据分布式这种场景下,处理数据运算和单机版不同:需要协同多台机器,并行计算:于是有了map-reduce这种模式,map阶段是数据处理,在 ...
Redis的多线程
Redis是单线程内部机制,那么怎么实现并发?在单机上部署多个Redis实例.

Spark分析之BlockManager

Spark分析之BlockManager的更多相关文章

随机推荐

热门专题