Spark 缓存机制

Spark中的缓存机制：避免spark每次都重算RDD以及它的所有依赖，cache()、persist()、 checkpoint()。

1、cache()：会被重复使用，但是不能太大的RDD，将其cache（）到内存当中，catch（）属于 memory only 。cache 是每计算出一个要 cache 的 partition 就直接将其 cache 到内存中。缓存完之后，可以在任务监控界面storage里面看到缓存的数据。

spark cache (几种缓存方法)：https://blog.csdn.net/zhuiqiuuuu/article/details/79290221

2、persist()：可以设置缓存级别，如只在内存，只在磁盘，内存磁盘都用。

3、checkpoint（）：computing chain 计算链过长或依赖其他 RDD 很多的 RDD，就需要进行checkpoint，将其放入到磁盘当中。

　　checkpoint 需要等到job完成了，在启动专门的job去完成checkpoint 操作，因此RDD是被计算了两次的。一般使用过的时候配合rdd.cache()，这样第二次就不用重新计算RDD了，直接读取 cache 写磁盘。

　　rdd.persist(StorageLevel.DISK_ONLY) 与 checkpoint 也有区别，persist一旦程序执行结束，所有的缓存无论在内存还是磁盘都会被删掉。而而 checkpoint 将 RDD 持久化到 HDFS 或本地文件夹，如果不被手动 remove 掉，是一直存在的，也就是说可以被下一个 driver，program 使用，而 cached RDD 不能被其他 dirver program 使用。

同时：cache 跟 persist不会截断血缘关系，checkPoint会截断血缘关系。

补充：缓存太多的时候，spark会自动使用 LRU 缓存策略（最近最少使用缓存策略），将最老的分区从内存中移除。若下次使用被移除的分区时，只能重算。

Spark 缓存机制的更多相关文章

Spark缓存机制
虽然默认情况下 RDD 的内容是临时的,但 Spark 提供了在 RDD 中持久化数据的机制.第一次调用动作并计算出 RDD 内容后,RDD 的内容可以存储在集群的内存或磁盘上.这样下一次需要调用依赖 ...
Spark 概念学习系列之Spark存储管理机制
Spark存储管理机制概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述思考: RDD,我们可以直接使用而无须关心它的实现细节, ...
大数据学习笔记——Spark工作机制以及API详解
Spark工作机制以及API详解本篇文章将会承接上篇关于如何部署Spark分布式集群的博客,会先对RDD编程中常见的API进行一个整理,接着再结合源代码以及注释详细地解读spark的作业提交流程,调 ...
Spring Boot从入门到精通（六）集成Redis实现缓存机制
Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言 ...
【腾讯Bugly干货分享】彻底弄懂 Http 缓存机制 - 基于缓存策略三要素分解法
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/qOMO0LIdA47j3RjhbCWUEQ 作者:李 ...
MyCat源码分析系列之——BufferPool与缓存机制
更多MyCat源码分析,请戳MyCat源码分析系列 BufferPool MyCat的缓冲区采用的是java.nio.ByteBuffer,由BufferPool类统一管理,相关的设置在SystemC ...
Java三大框架之——Hibernate中的三种数据持久状态和缓存机制
Hibernate中的三种状态瞬时状态:刚创建的对象还没有被Session持久化.缓存中不存在这个对象的数据并且数据库中没有这个对象对应的数据为瞬时状态这个时候是没有OID. 持久状态:对象经过 ...
Spring缓存机制的理解
在spring缓存机制中,包括了两个方面的缓存操作:1.缓存某个方法返回的结果:2.在某个方法执行前或后清空缓存. 下面写两个类来模拟Spring的缓存机制: package com.sin90lzc ...
hibernate缓存机制（转）
原文出处:http://www.cnblogs.com/wean/archive/2012/05/16/2502724.html 一.why(为什么要用Hibernate缓存?) Hibernate是 ...

随机推荐

Label&Button
Button中的bg参数设置按钮背景颜色,fg参数设置字体颜色 pack中的fill参数告诉Packer让QUIT按钮占据剩余的水平空间,而expand参数则引导它填充整个水平可视空间,将按钮拉伸到左 ...
Linux基础(09)aio高级编程
1.出于安全性 Linux有一个机制应用层和内核层是无法互相直接读取内存的, 他们要互相读取数据是有一个拷贝过程的, 如: 应用层要读取内核层的数据就调用read(), 内核就会先把数据copy到一 ...
Android Studio中设置与Eclipse中 Ctrl+1 功能类似的快捷键
Eclipse:Ctrl + 1 Android Studio: Alt + Enter 1. 首先当然是打开设置窗口啦,然后在IDE Settings 下找到Keymap 2. 在Keymap的搜索 ...
python罗列oss文件
# 列举文件 import oss2 from itertools import islice AccessKeyId = "your accesskeyid" AccessKey ...
ODBC数据导入
这个方法其实是导入excel 首先进入pl/sql dev (1):tools-->ODBC importer (2):点击connect,选择需要导入的excel (3):如果事先数据库中没有 ...
CentOS7 安装 Docker、最佳Docker学习文档
目录一.Docker支持二.安装Docker -1.在新主机上首次安装Docker CE之前,需要设置Docker存储库.之后,就可以从存储库安装和更新Docker. 0.卸载旧版 1.正式安装 ...
python爬虫-房天下-登录
房天下-登录本次爬取的网址为:https://passport.fang.com 一.分析请求输入用户名和密码,点击登录按钮请求的参数为: uid: 123456789 pwd: 64ccd42 ...
swagger2 404
swagger2 404 正确配置swagger后(配置),出现404问题. 如图: 分析原因我是在配置完成swagger后正常使用过一段时间的,然后检查了相关配置项的代码,没有被改动过.可以确定s ...
JS国际化网站中英文切换（理论支持所有语言）应用于h5版APP
网页框架类APP实现国际化参考文案一参考:https://blog.csdn.net/CSDN_LQR/article/details/78026254 另外付有自己实现的方法本人用于H5版的AP ...
(转载) @ConfigurationProperties 注解使用姿势，这一篇就够了
SpringBoot中的@ConfigurationProperties 传送门: http://www.hellojava.com/a/82613.html

Spark 缓存机制

Spark 缓存机制的更多相关文章

随机推荐

热门专题