RDD(八)——缓存与检查点

RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD的计算结果将会被缓存在计算节点的内存中，并供后面重用。

示例如下：

def main(args: Array[String]): Unit = {

    val sc: SparkContext = new SparkContext(new SparkConf().

      setMaster("local[*]").setAppName("spark"))

    val raw: RDD[String] = sc.makeRDD(Array("hello"))

    val current: RDD[String] = raw.map(_.toString + System.currentTimeMillis())

    //current.persist()

    current.collect().foreach(println)

    current.collect().foreach(println)

    current.collect().foreach(println)

  }

如果不加persist方法，执行结果如下：

hello1582190762213

hello1582190762463

hello1582190762526

加了persist方法之后，执行结果变为：

hello1582190869308

可见：current这个rdd的计算结果被缓存起来了，下游的rdd直接从缓存拿数据并进行运算。rdd及其rdd上游的计算过程被省略了，从而加快了计算过程。

存储级别：

object StorageLevel {

  val NONE = new StorageLevel(false, false, false, false)

  val DISK_ONLY = new StorageLevel(true, false, false, false)

  val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)

  val MEMORY_ONLY = new StorageLevel(false, true, false, true)

  val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)

  val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)

  val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)

  val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)

  val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)

  val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)

  val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)

  val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

class StorageLevel private(
    private var _useDisk: Boolean,
    private var _useMemory: Boolean,
    private var _useOffHeap: Boolean,
    private var _deserialized: Boolean,
    private var _replication: Int = 1)

堆外内存：区别于JVM内存。这一块内存不受JVM的GC回收机制的影响，而是直接向操作系统申请并自主管理的一块内存空间。为什么需要这块内存：JVM中的内存由于受到GC的影响，如果没有用完可能迟迟得不到释放，这时候如果再加入数据，就可能导致OOM问题。而如果由自己来管理内存，可以更及时地释放内存。

默认存储级别为MEMORY_ONLY：

检查点

如图所示:

依赖链过长，会导致有大量的血统信息要被记录；

而且在进行数据恢复的时候，要重新从头开始计算，比较耗时；

因此引入了检查点：

血统信息会从检查点开始记录；

重新计算时，把检查点的数据作为元数据开始计算；

相当于是检查点之前的RDD链条被掐断，检查点作为新的RDD链条头。

示例代码如下：

def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()

      .setAppName("wordcount").setMaster("local[*]")

    val sc: SparkContext = new SparkContext(conf)

    sc.setCheckpointDir("cp")

    val lines: RDD[String] = sc.parallelize(Array(("hello,spark"),("hello,scala"),("hello,world")))

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne: RDD[(String, Int)] = words.map((_,1))

//wordToOne之前的血缘关系，会被检查点替代。

    //wordToOne.checkpoint()

    val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_)

    wordToSum.collect()

    println(wordToSum.toDebugString)

  }

不加checkpoint的打印结果：

(8) ShuffledRDD[3] at reduceByKey at checkPoint.scala:21 []
+-(8) MapPartitionsRDD[2] at map at checkPoint.scala:17 []
| MapPartitionsRDD[1] at flatMap at checkPoint.scala:15 []
| ParallelCollectionRDD[0] at parallelize at checkPoint.scala:13 []

从头开始记录；

加了checkpoint之后的打印结果：

(8) ShuffledRDD[3] at reduceByKey at checkPoint.scala:21 []
+-(8) MapPartitionsRDD[2] at map at checkPoint.scala:17 []
| ReliableCheckpointRDD[4] at collect at checkPoint.scala:23 []

检查点所在RDD之前的RDD的血缘信息被检查点信息所替代。

接下来考察检查点之前的RDD会不会被重复计算：

def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf()

      .setAppName("wordcount").setMaster("local[*]")

    val sc: SparkContext = new SparkContext(conf)

    sc.setCheckpointDir("cp")

    val lines: RDD[String] = sc.parallelize(Array(System.currentTimeMillis().toString))

    val words: RDD[String] = lines.flatMap(_.split(" "))

    val wordToOne: RDD[(String, Int)] = words.map((_,1))

//wordToOne之前的血缘关系，会被检查点替代。

    wordToOne.checkpoint()

    val wordToSum: RDD[(String, Int)] = wordToOne.reduceByKey(_+_)

    wordToSum.collect().foreach(println)

    wordToSum.collect().foreach(println)

    wordToSum.collect().foreach(println)

  }

打印结果如下：

(1582193859704,1)

证明检查点之间的RDD没有被重复计算。

RDD(八)——缓存与检查点的更多相关文章

Spark RDD概念学习系列之RDD的缓存（八）
RDD的缓存 RDD的缓存和RDD的checkpoint的区别缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...
sparkRDD：第4节 RDD的依赖关系；第5节 RDD的缓存机制；第6节 DAG的生成
4. RDD的依赖关系 6.1 RDD的依赖 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency ...
RDD的缓存
RDD的缓存/持久化缓存解决的问题缓存解决什么问题?-解决的是热点数据频繁访问的效率问题在Spark开发中某些RDD的计算或转换可能会比较耗费时间, 如果这些RDD后续还会频繁的被使用到,那么可 ...
Redis系列(八)--缓存穿透、雪崩、更新策略
1.缓存更新策略 1.LRU/LFU/FIFO算法剔除:例如maxmemory-policy 2.超时剔除,过期时间expire,对于一些用户可以容忍延时更新的数据,例如文章简介内容改了几个字 3.主 ...
关于redis的几件小事(八)缓存与数据库双写时的数据一致性
1.Cache aside pattern 这是最经典的缓存+数据库读写模式,操作如下: ①读的时候,先读缓存,缓存没有就读数据库,然后将取出的数据放到缓存,同时返回请求响应. ②更新的时候,先删 ...
HTML5入门八---缓存控件元素的值
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
RDD缓存
RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集.当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他 ...

随机推荐

3DES 原理
3DES的原理: 加密阶段:用密钥1加密->用密钥2解密->用密钥3加密解密阶段:用密钥3解密->用密钥2加密->用密钥1解密版权声明:本文为博主原创文章,未经博主允许不得 ...
专为前端开发者准备的15款优秀的Sublime Text插件
Sublime Text 已成为了目前最流行的代码编辑器之一.它的反应速度.简单易用性以及丰富的插件生态,让众多前端开发者们为之倾倒. 为了帮助开发者们更便捷地使用 Sublime Text ,我们决 ...
经典线段树 UVALive 3938/UVA 1400
题意:就是相当于动规里面的求最大连续子串,不同的是,这里需要读入一个区间x,y,输出的区间 a,b 且x<=a<=b<=y,使得a b的连续子串最长,而且询问次数达到了10的五次方. ...
Java学习——代理模式
Java中的三种代理模式一,什么是代理模式? 代理模式是一种设计模式,简单的来说就是在不改变源码的情况下,实现对目标对象的功能扩展. 比如有个歌手对象叫Singer,这个对象有一个唱歌方法叫sing ...
关于阿里云的远程连接和轻型桌面（xfce4）安装
这里用的阿里云服务器是轻量应用服务器先通过网页端的远程连接进入服务器,然后安装xfce4 (1)先安装更新:apt-get update. (2)安装xrdp:输入apt-get install ...
CMake命令之export
CMake中与export()相关的命令 (注:红色字体是标题,粉色是需要特别需要注意的地方) 总的来说,export()命令想要做的事情可以用一句话概括:Export targets from th ...
SJTU T4143 推箱子
问题描述推箱子是一款经典的小游戏.游戏要求玩家将若干个箱子推到指定的位置,并以箱子移动次数最少作为目标. 现在,我们只需要考虑一个简化的版本--只有一个箱子.对于一张给定的地图,你需要判断是否可以将 ...
Java连载71-二分查找和Arrays工具类
一.二分法查找 1.二分法查找是建立在已经排序的基础之上的 2.程序分析是从下到大排序. 3.这个数组中没有重复的元素. package com.bjpowernode.java_learning ...
ASP.NET ZERO 学习导航菜单
定义PageNames和PermissionName PageNames : Web/App_Start/Navigation/PageNames.cs public const string Das ...
Python7DAY-基础语法.md
# python简介 python交互器的作用:主要是是为了调试代码.

RDD(八)——缓存与检查点

RDD(八)——缓存与检查点的更多相关文章

随机推荐

热门专题