RDD的缓存

RDD的缓存/持久化

缓存解决的问题

缓存解决什么问题?-解决的是热点数据频繁访问的效率问题

在Spark开发中某些RDD的计算或转换可能会比较耗费时间，

如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，

这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。

import org.apache.spark.rdd.RDD

import org.apache.spark.storage.StorageLevel

import org.apache.spark.{SparkConf, SparkContext}

object Demo16Cache {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("****").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[String] = sc.textFile("spark/data/words.txt")

    //加入缓存的三种方式

    //方式一

    linesRDD.cache()//将常用的RDD放入缓存中，增加效率

    //StorageLevel.MEMORY_ONLY 默认只放在缓存中

    //方式二

    //linesRDD.persist()

    //def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

    //指定缓存存储方式

    linesRDD.persist(StorageLevel.MEMORY_AND_DISK)

    /**

     * 缓存的存储方式：推荐使用MEMORY_AND_DISK

     * object StorageLevel {

     * val NONE = new StorageLevel(false, false, false, false)

     * val DISK_ONLY = new StorageLevel(true, false, false, false)

     * val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)

     * val MEMORY_ONLY = new StorageLevel(false, true, false, true)

     * val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)

     * val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)

     * val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)

     * val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)

     * val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)

     * val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)

     * val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)

     * val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

     */

    linesRDD.flatMap(word => word)

      .groupBy(word => word)

      .map(l => {

        val word = l._1

        val cnt = l._2.size

        word + "," + cnt

      }).foreach(println)

    val wordRDD: Unit = linesRDD.map(word => word)

        .foreach(println)

    //释放缓存

    linesRDD.unpersist()

  }

}

RDD中的checkpoint

RDD数据可以持久化到内存中，虽然是快速的，但是不可靠

也可以把数据放在磁盘上，也并不是完全可靠的，

我们可以把缓存数据放到我的HDFS中，借助HDFS的高可靠，高可用以及高容错来保证数据安全

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

import org.apache.spark.storage.StorageLevel

object Demo17CheckPoint {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("spark").setMaster("local")

    val sc: SparkContext = new SparkContext(conf)

    val linesRDD: RDD[String] = sc.textFile("spark/data/words.txt")

    /**

     * RDD数据可以持久化到内存中，虽然是快速的，但是不可靠

     * 也可以把数据放在磁盘上，也并不是完全可靠的

     * 我们可以把缓存数据放到我的HDFS中，借助HDFS的高可靠，高可用以及高容错来保证数据安全

     *

     */

    //设置HDFS的目录

    sc.setCheckpointDir("spark/data/checkPoint")

    //对需要缓存的RDD进行checkPoint

    linesRDD.checkpoint()

    linesRDD.flatMap(word => word)

      .groupBy(word => word)

      .map(l => {

        val word = l._1

        val cnt = l._2.size

        word + "," + cnt

      }).foreach(println)

    val wordRDD: Unit = linesRDD.map(word => word)

      .foreach(println)

  }

}

RDD的缓存的更多相关文章

Spark RDD概念学习系列之RDD的缓存（八）
RDD的缓存 RDD的缓存和RDD的checkpoint的区别缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...
sparkRDD：第4节 RDD的依赖关系；第5节 RDD的缓存机制；第6节 DAG的生成
4. RDD的依赖关系 6.1 RDD的依赖 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency ...
RDD(八)——缓存与检查点
RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中. 但是并不是这两个方法被调用时立即缓存,而是触发 ...
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
RDD缓存
RDD的缓存 Spark速度非常快的原因之一,就是在不同操作中可以在内存中持久化或缓存数据集.当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他 ...
Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系
RDD(Resilient Distributed Datasets)弹性的分布式数据集,又称Spark core,它代表一个只读的.不可变.可分区,里面的元素可分布式并行计算的数据集. RDD是一个 ...
RDD：基于内存的集群计算容错抽象(转)
原文:http://shiyanjun.cn/archives/744.html 该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fa ...
Spark RDD Operations（2）
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型. 1)输入分区与输出分区一对一型. 2)输入分区与输出分区多对一型. 3)输 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...

随机推荐

html网页乱码
html乱码原因与网页乱码解决方法 html乱码原因与网页乱码解决方法,浏览器浏览网页内容出现乱码符合解决篇(html中文乱码) 造成html网页乱码原因主要是html源代码内中文字内容与html ...
『Python』matplotlib坐标轴应用
1. 设置坐标轴的位置和展示形式 import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl mpl.use ...
Nresource服务之接口缓存化
1. 背景 Nresource服务日均4.5亿流量,考虑到未来流量急增场景,我们打算对大流量接口进行缓存化处理:根据服务管理平台数据统计显示getUsableResoureCount接口调用量很大,接 ...
JS获取contextPath的方法
function getContextPath() { var pathName = document.location.pathname; var index = pathName.subst ...
多图详解万星 Restful 框架原理与实现
rest框架概览我们先通过 go-zero 自带的命令行工具 goctl 来生成一个 api service,其 main 函数如下: func main() { flag.Parse() var ...
7.JVM调优-方法区,堆,栈调优详解
通常我们都知道在堆空间新生代Eden区满了,会触发minor GC, 在老年代满了会触发full GC, 触发full GC会导致Stop The World, 那你们知道还有一个区域满了一会触发Fu ...
Python - __all__ 变量
import * 当我们向文件导入某个模块时,导入的是该模块中那些名称不以下划线(单下划线 _ 或者双下划线 __ )开头的变量.函数和类因此,如果不想模块文件中的某个对象被引入到其它文件中使用,可 ...
教你轻松构建基于 Serverless 架构的小程序
前言自 2017 年第一批小程序上线以来,越来越多的移动端应用以小程序的形式呈现.小程序触手可及.用完即走的优点,大大降低了用户的使用负担,也使小程序得到了广泛的传播.在阿里巴巴,小程序也被广泛地应 ...
macbook air m1上传文件到github
一,首先安装git,打开ssh文件里的id_rsa.pub,然后复制所有内容. 二,github上申请自己的账号,右上角settings里选择SSH and GPG keys,点击new ssh ke ...
pymysql基础
一,基本使用倒入模块 import pymysql conn=pymysql.connect( host="数据库地址,本机是localhost,别的机器是ip", user=& ...