Spark缓存策略

当对同一个rdd多次执行action时，如果在磁盘上则每次执行action都会从磁盘将数据加载，如果将其缓存到内存中会提高再次action的读取速度，Spark缓存主要有cache()和persist()两种，当缓存一个rdd时，每一个节点上都会存放这个rdd的partition，当要使用rdd的时候可以直接从内存读出。

cache源码：

def cache(self):

        """

        Persist this RDD with the default storage level (C{MEMORY_ONLY}).

        """

        self.is_cached = True

        self.persist(StorageLevel.MEMORY_ONLY)

        return self

从源码可以看出，cache底层调用的是persist方法，传入的参数是：StorageLevel.MEMORY_ONLY，再看persist()方法：

def persist(self, storageLevel=StorageLevel.MEMORY_ONLY):

        self.is_cached = True

        javaStorageLevel = self.ctx._getJavaStorageLevel(storageLevel)

        self._jrdd.persist(javaStorageLevel)

        return self

persist方法，传入的参数是StorageLevel，从StorageLevel的源码可以看出它的值总共有6种，因此persist()相比cache()在缓存形式上更为丰富，不仅支持内存的方式，还支持内存和磁盘、内存副本等方式。

StorageLevel.DISK_ONLY = StorageLevel(True, False, False, False)

StorageLevel.DISK_ONLY_2 = StorageLevel(True, False, False, False, 2)

StorageLevel.MEMORY_ONLY = StorageLevel(False, True, False, False)

StorageLevel.MEMORY_ONLY_2 = StorageLevel(False, True, False, False, 2)

StorageLevel.MEMORY_AND_DISK = StorageLevel(True, True, False, False)

StorageLevel.MEMORY_AND_DISK_2 = StorageLevel(True, True, False, False, 2)

StorageLevel.OFF_HEAP = StorageLevel(True, True, True, False, 1)

持久化到内存和直接从磁盘读取时间对比：

import os

import time

from pyspark import SparkContext, SparkConf

conf = SparkConf()

sc = SparkContext(conf=conf)

current_dir = os.path.dirname(os.path.realpath(__file__))

file_path = "{}/name_age.txt".format(current_dir)

def cached():

    start_time = time.time()

    text_rdd = sc.textFile("file://{}".format(file_path)).cache()

    text_rdd.count()

    text_rdd.count()

    end_time = time.time()

    print("{}:{}".format("first cache", end_time - start_time))

    start1_time = time.time()

    text1_rdd = sc.textFile("file://{}".format(file_path)).cache()

    text1_rdd.count()

    text1_rdd.count()

    end1_time = time.time()

    print("{}:{}".format("second cache", end1_time - start1_time))

def uncached():

    start_time = time.time()

    text_rdd = sc.textFile("file://{}".format(file_path))

    text_rdd.count()

    text_rdd.count()

    end_time = time.time()

    print("{}:{}".format("first uncache", end_time - start_time))

    start1_time = time.time()

    text1_rdd = sc.textFile("file://{}".format(file_path))

    text1_rdd.count()

    text1_rdd.count()

    end1_time = time.time()

    print("{}:{}".format("second uncache", end1_time - start1_time))

sc.stop()

执行cached()结果：

first cache:1.7104301452636719

second cache:0.2717571258544922

执行uncached()结果：

first uncache:1.4453039169311523

second uncache:0.49161386489868164

从执行结果可以看出，当第二次执行rdd.count()时，有cache情况下是0.2717571258544922；无cache情况下是0.49161386489868164，由于我的内存空间不足，所以不太明显，当数据量大且内存充足的时候，持久化到内存的效率会远远高于磁盘。

对pyspark有兴趣的小伙伴可以关注我的github，spark for python 持续更新

Spark缓存策略的更多相关文章

RDD缓存策略
Spark支持将数据集放置在集群的缓存中,以便于数据重用. Spark缓存策略对应的类: class StorageLevel private( private var useDisk_ : Bool ...
RDD概念、特性、缓存策略与容错
一.RDD概念与特性 1. RDD的概念 RDD(Resilient Distributed Dataset),是指弹性分布式数据集.数据集:Spark中的编程是基于RDD的,将原始数据加载到内存变成 ...
Spark持久化策略
spark持久化策略_缓存优化persist.cache都是持久化到内存缓存策略 StorageLevel_useDisk:是否使用磁盘_useMemory:是否使用内存_useOffHeap:不用堆 ...
Spark 缓存机制
Spark中的缓存机制:避免spark每次都重算RDD以及它的所有依赖,cache().persist(). checkpoint(). 1.cache():会被重复使用,但是不能太大的RDD,将其c ...
【腾讯Bugly干货分享】彻底弄懂 Http 缓存机制 - 基于缓存策略三要素分解法
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/qOMO0LIdA47j3RjhbCWUEQ 作者:李 ...
【转】理解Java Integer的缓存策略
本文将介绍 Java 中 Integer 缓存的相关知识.这是 Java 5 中引入的一个有助于节省内存.提高性能的特性.首先看一个使用 Integer 的示例代码,展示了 Integer 的缓存行为 ...
Redis的缓存策略和主键失效机制
作为缓存系统都要定期清理无效数据,就需要一个主键失效和淘汰策略. >>EXPIRE主键失效机制在Redis当中,有生存期的key被称为volatile,在创建缓存时,要为给定的key设置 ...
Web开发基本准则-55实录-缓存策略
续上篇<Web开发基本准则-55实录-Web访问安全>. Web开发基本准则-55实录-缓存策略郑昀创建于2013年2月郑昀最后更新于2013年10月26日提纲: Web访问安全 ...
腾讯QQ你的缓存策略应该改下了
缓存策略基本原则大家都怎么考虑的? 缓存好友数量这个也是醉了,这个数字好像变化频率有点低吧,ok,就算你企鹅用户量大,需要缓存,那肉肉的问一句你这更新策略也不能只管网上涨的,不管往下降的吧?难不成你是 ...

随机推荐

IDEA的 mybatis插件报错 - IDE Fatal Errors
IDE Fatal Errors Exception in plugin Mybatis plugin. A minute ago. Occurred once since the last clea ...
如何学习FPGA
如何学习FPGA 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/k331922164/article/details/44626989 PS:笔者强 ...
Redis系列八：redis主从复制和哨兵
一.Redis主从复制主从复制:主节点负责写数据,从节点负责读数据,主节点定期把数据同步到从节点保证数据的一致性 1. 主从复制的相关操作 a,配置主从复制方式一.新增redis6380.conf, ...
柳叶刀重磅出击！全外显子测序在胎儿结构异常的评估Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study
柳叶刀发表的文献解读:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective coh ...
C++回顾day03---<纯虚函数和抽象类以及虚析构函数，delete使用>
一:纯虚函数和抽象类纯虚函数是一个在基类中说明的虚函数,在基类中没有定义,要求任何派生类都定义自己的版本纯虚函数为各个派生类提供一个公共接口纯虚函数的形式: virtual 类型函数名(参数列 ...
HDU 5968(异或计算暴力)
题意是在一个数列中找到一段连续的子串使其异或值与所给值最接近,求出子串长度,若有多组结果,输出最大长度. 做题之前一定多注意数据范围,这道题就可以直接暴力,用数组 p[ i ][ j ] 表示长度为 ...
luogu 3084 单调队列+dp
注意处理出两个数组: r[i] 能覆盖i点的区间的左端点最小值(覆盖左侧最远处) l[i] i不能覆盖的区间的左端点左端点最大值在该区间内寻找用来更新f[i] 答案的 j 即 l[i]<= j ...
Linux-Centos 虚拟机安装
Centos安装方法第一步:一般只有第一项和第三项有用其余的没啥卵用第二步:提示检查镜像完整性,这里我们不要检查选 skip 继续(之前尝试选择OK,最后安装失败了,也不想找原因了) 第三步 ...
Python3:OOP Demo
方便快速回顾Python的OOP语法 ###################### # 类的私有专有方法 # ###################### # __init__ : 构造函数,在生成对 ...
XL4001 典型应用电路
典型的应用电路如下: 中文数据手册:https://wenku.baidu.com/view/98ad2ed86f1aff00bed51ec7.html 在做毕设的时候用到的一款350ma的DC/DC ...

Spark缓存策略

Spark缓存策略的更多相关文章

随机推荐

热门专题