【spark】持久化

Spark RDD 是惰性求值的。

如果简单地对RDD 调用行动操作，Spark 每次都会重算RDD 以及它的所有依赖。这在迭代算法中消耗格外大。

换句话来说就是

当DAG图遇到转化操作的时候是不求值的。

只有当遇到行动操作的时候才会求值，但是每次求值都是从头到尾来求的。

并不会从上一个行动操作为起点来计算。这样一来迭代计算就会重复计算好多数值。

我们可以通过持久化(缓存)机制避免这种重复计算的开销。

使用persist()方法对一个RDD标记为持久化。

之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算成RDD并把它持久化。

而是要等到遇到下一个行动操作真正发生产生计算的时候，才会把计算结果持久化。

持久化后的RDD将被保留在计算节点的内存中，可以被后面的行动操作重复使用。

import org.apache.spark._

object MyRdd {

    def main(args:Array[String]): Unit ={

        //初始化配置：设置主机名和程序主类的名字

        val conf = new SparkConf().setMaster("local").setAppName("MyRdd");

        //通过conf来创建sparkcontext

        val sc = new SparkContext(conf);

        val list = List("Hadoop","Spark","Hive");

        val rdd = sc.parallelize(list);

        rdd.persist();//调用了持久化进行标记，但是这里并不会缓存rdd，因为rdd还没有计算生成

        println(rdd.count());//标记后第一次的行动操作count()产生计算值，才会执行上边的rdd.persist()

        println(rdd.collect());//标记后的第二次行动操作,不需要从头开始重新计算，只需要使用缓存中的rdd

    }

}

注意persist()方法是有持久化级别参数的。

1.persist(MEMORY_ONLY)：表示将RDD作为反序列化对象存储于JVM中，如果内存不足，就按照LRU原则替换内存中的内容。

2.persist(MEMORY_AND_DISK)：表示将RDD作为反序列化的对象存储在JVM中，超出的分区将存放在磁盘中。

我们日常中经常使用cache()方法，这个方法会调用persist(MEMORY_ONLY)。例如，rdd.cache()

我们可以通过unpersist()方法手动的把放在缓存中的持久化对象移除。

【spark】持久化的更多相关文章

spark持久化
spark持久化:cache .persist.checkpoint 一.cache持久化 cache实际上是persist的一种简化方式,是一种懒执行的,执行action类算子才会触发,cahce后 ...
Spark持久化策略
spark持久化策略_缓存优化persist.cache都是持久化到内存缓存策略 StorageLevel_useDisk:是否使用磁盘_useMemory:是否使用内存_useOffHeap:不用堆 ...
spark 持久化机制
spark的持久化机制做的相对隐晦一些,没有一个显示的调用入口. 首先通过rdd.persist(newLevel: StorageLevel)对此rdd的StorageLevel进行赋值,同chec ...
Spark开发指南
原文链接http://www.sxt.cn/info-2730-u-756.html 目录 Spark开发指南简介接入Spark Java 初始化Spark Java 弹性分布式数据集并行集合 ...
spark RDD编程，scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
Spark调优数据倾斜
1. Spark数据倾斜问题 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题. 例如,reduce ...
07、RDD持久化
为了避免多次计算同一个RDD(如上面的同一result RDD就调用了两次Action操作),可以让Spark对数据进行持久化.当我们让Spark持久化存储一个RDD时,计算出RDD的节点会分别保存它 ...
SPARK快学大数据分析概要
Spark 是一个用来实现快速而通用的集群计算的平台.在速度方面,Spark 扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理.在处理大规模数据集时,速 ...

随机推荐

Flask（2）- 装饰器的坑及解决办法、flask中的路由/实例化配置/对象配置/蓝图/特殊装饰器（中间件、重定义错误页面）
一.装饰器的坑以及解决方法 1.使用装饰器装饰两个视图函数,代码如下 from flask import Flask, redirect, render_template, request, sess ...
DRF(2) - 解析器，序列化组件使用（GET/POST接口设计）
一.DRF - 解析器 1.解析器的引出我们知道,浏览器可以向django服务器发送json格式的数据,此时,django不会帮我们进行解析,只是将发送的原数据保存在request.body中,只有 ...
学习笔记のsendRedirect &forward
尽管HttpServletResponse.sendRedirect方法和RequestDispatcher.forward方法都可以让浏览器获得另外一个URL所指向的资源,但两者的内部运行机制有着很 ...
在Centos上打Preempt-rt实时补丁
1.系统centos6.5,内核2.6.31.6,补丁patch-2.6.31.6-rt19.bz2,以下方式获得: wget https://www.kernel.org/pub/linux/ker ...
RTSP客户端接收存储数据(live555库中的testRTSPClient实例)
1.testRTSPClient简介 testRTSPClient是个简单的客户端实例,这个实例对rtsp数据交互作了详细的描述,其中涉及到rtsp会话的两个概念Source和Sink. Source ...
springmvc 标签
https://www.baeldung.com/spring-mvc-form-tags 1. Overview In the first article of this series we ...
netty2---服务端和客户端
客户端: package com.client; import java.net.InetSocketAddress; import java.util.Scanner; import java.ut ...
Django-JS实现的ajax
JS实现的ajax ajax的优缺点 AJAX使用Javascript技术向服务器发送异步请求 AJAX无须刷新整个页面因为服务器响应内容不再是整个页面,而是页面中的局部,所以AJAX性能高小练习 ...
基于SSM的单点登陆04
jdbc.properties JDBC_DRIVER=org.mariadb.jdbc.Driver JDBC_URL=jdbc:mariadb://127.0.0.1:3306/market JD ...
Refseq，accssion #,gi ,Ensembl的关系
accession编号的分子类型代号: Ensembl是2000年就开始开发的基因组自动注释软件,起初是只对真核生物基因组,2009年后开始对植物,细菌等开放.既然要注释,就要有注释对象(基因,转录本 ...

【spark】持久化

【spark】持久化的更多相关文章

随机推荐

热门专题