spark性能优化----缓存清除

spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。persist拥以下几个级别的缓存：

NONE  默认配置（不缓存）

DISK_ONLY  数据缓存到磁盘,特点读写特别慢，内存占用比较少

DISK_ONLY_2 数据缓存到磁盘两份，特点读写比较慢（比DISK_ONLY读写快，稳定性好）

MEMORY_ONLY 数据缓存到内存和cache()功能之一，读写最快但是内存消耗比较大

MEMORY_ONLY_2 数据缓存到内存，并且缓存两份，特点读写速度快内存消耗很大，稳定性比较好，适用于集群不稳定，缓存的数据计算过程比较复杂的情况

MEMORY_ONLY_SER 数据缓存到内存并序列化，一般可以配合kyro一起使用，读写过程需要序列化和反序列化，读写速度比Memory_only慢，但是数列化后的数据占用内存比较少

MEMORY_ONLY_SER_2 数据序列化后存两份到内存，读写过程同上，特点内存占用量较大，适用于不太稳定的集群

MEMORY_AND_DISK 数据缓存到内存，内存不够溢写到磁盘，一般情况这个使用的比较多一点，是读写性能和数据空间的平衡点

MEMORY_AND_DISK_2 数据缓存两份到内存，内存不够溢写到磁盘，一般情况这个使用的比较多一点，是读写性能和数据空间的平衡点

MEMORY_AND_DISK_SER 数据序列化后缓存到内存，内存不够溢写到磁盘

MEMORY_AND_DISK_SER_2数据序列化后缓存2份到内存，内存不够溢写到磁盘

OFF_HEAP 使用堆外内存缓存数据可以配合tachyon一起使用

这些缓存各有特点，视具体情况使用不同级别。
可能有很多初学者都在困惑一个问题，到底什么时候该释放这些内存。比较官方的说法是在action之后释放这些缓存比较科学。但是更加具体一点是在shuffle之后就可以释放掉，或者在数据又一次被序列化以后，上一个cache可以释放掉。这个实验可以在单机版自行测试。

在很多场景下，程序员自己缓存的数据可以通过unpersist手动去除。但是在有些场景可能会忘掉去除缓存，或者引用在shuffle/action之后丢失了，就没法调用unpersist方法。在一些框架内部（比如graphx)为达到优化目的会调用persist却没有释放(因为提前释放cache将无效)。这些情况缓存的数据无法释放，内存空间不足时系统按照最久最近未使用算法去除掉一部分缓存，后续有在用到再重新计算。遇到这种情况性能就会直线下降。

其实spark框架还提供另外一个api供开发者调sc.getPersistentRDDs,这个方法返回所有这在被缓存的RDD数据，开发者可以根据自己需求去除掉不需要的缓存，以下是实现方法：

def unpersistUnuse(rddString: Set[String], sc: SparkContext) = {

  var persistRdds = sc.getPersistentRDDs

  persistRdds.foreach(truple => {

    val xx = truple._2.toString()

    val ddd = rddString

    if (!rddString.contains(truple._2.toString())) {

      truple._2.unpersist()

    }

  })

}

入参rddString是不能清除缓存的RDD.toString之后的字符串集合。调用完之后不需要的缓存就被清除掉。

spark性能优化----缓存清除的更多相关文章

【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...
Spark性能优化(二)
资源调优调优概述在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要 ...
Spark性能优化(一)
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化(1)——序列化、内存、并行度、数据存储格式、Shuffle
序列化背景: 在以下过程中,需要对数据进行序列化: shuffling data时需要通过网络传输数据 RDD序列化到磁盘时性能优化点: Spark默认的序列化类型是Java序列化.Java序列化 ...
Spark性能优化指南——基础篇转
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
安卓性能优化之清除Handler的Message和Runnable
安卓性能优化之清除Handler的Message和Runnable Handler是由系统所提供的一种异步消息处理的常用方式,一般情况下不会发生内存泄露. 但既然是调优,当在A_Activity中使用 ...

随机推荐

android studio中为gradle指定cmake版本
Android Studio相当于是Intellij基础上写了一个AS插件,这个插件使用gradle作为构建系统,因此构建出现问题先考虑gradle的文档. gradle可以使用native buil ...
前端JS
目录 1.javascript介绍 1.1Web前端有三层: 1.2其中JavaScript基础又分为三个部分: 1.3JavaScript入门易学性 1.4JavaScript的组成 1.5Java ...
【MySQL】测试MySQL表中安全删除重复数据只保留一条的相关方法
第二篇文章测试说明开发测试中,难免会存在一些重复行数据,因此常常会造成一些测试异常. 下面简单测试mysql表删除重复数据行的相关操作. 主要通过一下三个大标题来测试说明: 02.尝试删除dept_ ...
CentOS7.5下SVN服务器备份与恢复
可以先查看 svnadmin 命令的使用说明 svnadmin --help 1.完全备份和增量备份查看 svnadmin dump 命令的使用说明 svnadmin dump --help svn ...
5、Python之包管理工具pip
pip提供我们各色各样的软件(第三方库),而这些第三方库又可以给我们实现各种各样不同的功能,科学计算.画图.操作文件.聊天-- 我们可以通过Cmd终端.Pycharm.Jupyter三种平台使用pip ...
MAT022 Foundations of Statistics
MAT022 Foundations of Statistics and Data Science Summative Assessment 2019/20MAT022 Foundations of ...
springboot使用jdbcTemplate案例
1 创建实体类 public class Student { private Integer stuid; private String stuname; public Integer getStui ...
VS2010中使用boost正则表达式库
1.下载boost库.http://www.boost.org/ 我下载的是boost_1_51_0版本.放在D:\opensource\boost_1_51_0. 2.编译boost库. 执 ...
WinDbg常用命令系列---!envvar
!envvar 简介 !envvar扩展命令显示特定环境变量的值. 使用形式 !envvar Variable 参数 Variable指定显示其值的环境变量.变量不区分大小写. 环境 Windows ...
jedis的连接池
1.需要先打开虚拟机,并开启Linux系统的端口号:6379: 其中,第一行代码为修改字符编码格式,解决SSH中文乱码问题. 2.开启redis: 3.利用连接池实现数据的存取: (1)代码实现: i ...

spark性能优化----缓存清除

spark性能优化----缓存清除的更多相关文章

随机推荐

热门专题