本课主题

CacheManager 运行原理图
CacheManager 源码解析

CacheManager 运行原理图

[下图是CacheManager的运行原理图]

首先 RDD 是通过 iterator 来进行计算：

CacheManager 会通过 BlockManager 从 Local 或者 Remote 获取数据直接通过 RDD 的 compute 进行计算，有可能需要考虑 checkpoint;
通过 BlockManager 首先从本地获取数据，如果获得不到数据的话会从远程获取数据
首先检查看当前的 RDD 是否进行了 CheckPoint ，如果进行了话就直接读取 checkpoint 的数据，否则的话就必需进行计算；因为此时 RDD 需要缓存，所以计算如果需要通过 BlockManager 再次进行持久
如果持久化的时候只是缓存到磁盘中，就直接使用 BlockManager 的 doPut 方法写入磁盘即可(需要考虑 Replication)。
如果指定了内存做缓存的话，优先保存到内存中，此时会使用MemoryStore.unrollSafely 方法来尝试安全的将数据保存在内存中，如果内存不够的话，会使用一个方法来整理一部份内存空间，然后基于整理出来的内存空间放入我们想缓存的最新数据；
直接通过 RDD 的 compute 进行计算，有可能需要考虑 checkpoint;

CacheManager 源码解析

CacheManager 管理的是缓存中的数据，缓存可以是基于内存的缓存，也可以是基于磁盘的缓存；
CacheManager 需要通过 BlockManager 来操作数据；
每当 Task 运行的时候会调用 RDD 的 Compute 方法进行计算，而 Compute 方法会调用 iterator 方法；
[下图是 MapPartitionRDD.scala 的 compute 方法]

这个方法是 final 级别不能覆写但可以被子类去使用，可以看见 RDD 是优先使用内存的，这个方法很关键！！如果存储级别不等于 NONE 的情况下，程序会先找 CacheManager 获得数据，否则的话会看有没有进行 Checkpoint
[下图是 RDD.scala 的 iterator 方法]

以下是 Spark 中的 StorageLevel
[下图是 StorageLevel.scala 的 StorageLevel 对象]
Cache 在工作的时候会最大化的保留数据，但是数据不一定绝对完整，因为当前的计算如果需要内存空间的话，那么内存中的数据必需让出空间，这是因为执行比缓存重要！此时如何在RDD 持久化的时候同时指定了可以把数据放左Disk 上，那么部份 Cache 的数据可以从内存转入磁盘，否则的话，数据就会丢失！
假设现在 Cache 了一百万个数据分片，但是我下一个步骤计算的时候，我需要内存，思考题：你觉得是我现在需要的内存重要呢，还是你曾经 Cache 占用的空间重要呢？亳无疑问，肯定是现在计算重要。所以 Cache 占用的空间需要从内存中除掉，如果你程序的 StorageLevel 是 MEMEORY_AND_DISK 的话，这时候在内存可能是 Drop 到磁盘上，如果你程序的 StorageLevel 是 MEMEORY_ONLY 的话，那就会出去数据丢失的情况。
你进行Cache时，BlockManager 会帮你进行管理，我们可以通过 Key 到 BlockManager 中找出曾经缓存的数据。
[下图是 CacheManager.scala 的 getOrCompute 方法]

[下图是 CacheManager.scala 的 getOrCompute 方法内部具体的实现]

如果有 BlockManager.get() 方法没有返回任何数据，就调用 acquireLockForPartition 方法，因为会有可能多条线程在操作数据，Spark 有一个东西叫慢任务StraggleTask 推迟，StraggleTask 推迟的时候一般都会运行两个任务在两台机器上，你可能在你当前机器上没有发现这个内容，同时有远程也没有发现这个内容，只不过在你返回的那一刻，别人已经算完啦！
[下图是 CacheManager.scala 的 getOrCompute 方法内部具体的实现]

[下图是 CacheManager.scala 的 getOrCompute 方法内部具体的实现]

最后还是通过 BlockManager.get 来获得数据
[下图是 CacheManager.scala 的 acquireLockForPartition 方法]
具体 CacheManager 在获得缓存数据的时候会通过 BlockManager 来抓到数据，优先在本地找数据或者的话就远程抓取数据。
[下图是 BlockManager.scala 的 get 方法]

BlockManger.getLocal 然后转过来调用 doGetLocal 方法，在 doGetLocal 的实现中看到缓存其实不竟竟在内存中，可以在内存、磁盘、也可以在 OffHeap (Tachyon) 中
[下图是 BlockManager.scala 的 getLocal 方法]
在第5步调用了 getLocal 方法后转过调用了 doGetLocal
[下图是 BlockManager.scala 的 doGetLocal 方法]
在第5步中如果本地没有缓存的话就调用 getRemote 方法从远程抓取数据
[下图是 BlockManager.scala 的 getRemote 方法]
如果 CacheManager 没有通过 BlockManager 获得缓存内容的话，其实会通过 RDD 的 computeOrReadCheckpoint 方法来获得数据。
[下图是 RDD.scala 的 computeOrReadChcekpoint 方法]

上述首先检查看当前的 RDD 是否进行了 Checkpoint ，如果进行了话就直接读取 checkpoint 的数据，否则的话就必需进行计算； Checkpoint 本身很重要；计算之后通过 putInBlockManager 会把数据按照 StorageLevel 重新缓存起来。
[下图是 CacheManager.scala 的 putInBlockManager 方法]
你如果把数据缓存在内存中，你需要注意的是内存空间够不够，此时会调用 memoryStore 中的 unrollSafety 方法，里面有一个循环在内存中放数据。
[下图是 MemoryStore.scala 中的 unrollSafely 方法]

參考資料

资料来源来至 DT大数据梦工厂大数据传奇行动第40课：CacheManager彻底解密：CacheManager运行原理流程图和源码详解

Spark源码图片取自于 Spark 1.6.0版本

[Spark内核] 第40课：CacheManager彻底解密：CacheManager运行原理流程图和源码详解的更多相关文章

Spark Sort-Based Shuffle具体实现内幕和源码详解
为什么讲解Sorted-Based shuffle?2方面的原因:一,可能有些朋友看到Sorted-Based Shuffle的时候,会有一个误解,认为Spark基于Sorted-Based Shuf ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
[Spark内核] 第38课：BlockManager架构原理、运行流程图和源码解密
本课主题 BlockManager 运行實例 BlockManager 原理流程图 BlockManager 源码解析引言 BlockManager 是管理整个Spark运行时的数据读写的,当然也包 ...
Spark Streaming揭秘 Day25 StreamingContext和JobScheduler启动源码详解
Spark Streaming揭秘 Day25 StreamingContext和JobScheduler启动源码详解今天主要理一下StreamingContext的启动过程,其中最为重要的就是Jo ...
[转]Linux内核源码详解--iostat
Linux内核源码详解——命令篇之iostat 转自:http://www.cnblogs.com/york-hust/p/4846497.html 本文主要分析了Linux的iostat命令的源码, ...
[Spark内核] 第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本課主題 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 [引言部份:你希望读者 ...
[Spark内核] 第29课：Master HA彻底解密
本课主题 Master HA 解析 Master HA 解析源码分享 [引言部份:你希望读者看完这篇博客后有那些启发.学到什么样的知识点] 更新中...... Master HA 解析生产环境下一般 ...
[Spark内核] 第37课：Task执行内幕与结果处理解密
本课主题 Task执行内幕与结果处理解密引言这一章我们主要关心的是 Task 是怎样被计算的以及结果是怎么被处理的了解 Task 是怎样被计算的以及结果是怎么被处理的 Task 执行原理流程图 ...
Linux内核源码详解——命令篇之iostat[zz]
本文主要分析了Linux的iostat命令的源码,iostat的主要功能见博客:性能测试进阶指南——基础篇之磁盘IO iostat源码共563行,应该算是Linux系统命令代码比较少的了.源代码中主要 ...

随机推荐

node-koa搭建MVC/RESTful API项目
本文将介绍如何基于node-koa搭建一个完整的mvc及restAPI的项目,项目封装了路由.模板引擎. 静态文件加载等基本功能:首先介绍项目的安装启动及目录结构说明,然后通过一个简单的登录页说明mv ...
（二）—Linux远程连接与常用命令
要学linux ,一定得用命令界面的,怎么也得是shell语言,用就最难最原始的,用的人都是专家,历史最少也得30年,不管有三七二十一上来就敲ls ,先看看当前目录都有什么.一口专业的linux范儿, ...
【Access2007】解救被阉割的truncate
Access2007使用被阉割的J-SQL语句,语法跟T-SQL语句.也就是寻常最标准的SQL语句一模一样,但就是仅保留insert into,delete,select,update与没太大意义的过 ...
gRPC异步处理应答
gRPC异步处理应答 (金庆的专栏) gRPC的演示样例 greeter_async_client.cc 不算是异步客户端,它使用了异步请求.可是堵塞式等待应答,结果成为一个同步调用. std::st ...
JS 循环遍历JSON数据分类： JS技术 JS JQuery 2010-12-01 13:56 43646人阅读评论(5) 收藏举报 jsonc JSON数据如：{"options":"[{
JS 循环遍历JSON数据分类: JS技术 JS JQuery2010-12-01 13:56 43646人阅读评论(5) 收藏举报 jsonc JSON数据如:{"options&q ...
优化Webpack构建性能的几点建议
Webpack 作为目前最流行的前端构建工具之一,在 vue/react 等 Framework 的生态圈中都占据重要地位.在开发现代 Web 应用的过程中,Webpack 和我们的开发过程和发布过程 ...
【转载】Spring AOP详解、 JDK动态代理、CGLib动态代理
Spring AOP详解 . JDK动态代理.CGLib动态代理原文地址:https://www.cnblogs.com/kukudelaomao/p/5897893.html AOP是Aspec ...
java 单例模式学习笔记
1.单例模式概述单例模式就是确保类在内存中只有一个对象,该实例必须自动创建,并且对外提供. 2.优缺点优点:在系统内存中只存在一个对象,因此可以节约系统资源,对于一些需要频繁创建和销毁的对象单例模 ...
java-生成任意格式的json数据
最近研究java的东西.之前靠着自己的摸索,实现了把java对象转成json格式的数据的功能,返回给前端.当时使用的是 JSONObject.fromObject(object) 方法把java对象换 ...
akka-stream与actor系统集成以及如何处理随之而来的背压问题
这几天上海快下了五天的雨☔️☔️☔️☔️,淅淅沥沥,郁郁沉沉. 一共存在四个api: Source.actorRef,返回actorRef,该actorRef接收到的消息,将被下游消费者所消费 ...

[Spark内核] 第40课：CacheManager彻底解密：CacheManager运行原理流程图和源码详解

本课主题

CacheManager 运行原理图

CacheManager 源码解析

參考資料

[Spark内核] 第40课：CacheManager彻底解密：CacheManager运行原理流程图和源码详解的更多相关文章

随机推荐

热门专题