在文章的开头，安利一下我自己的github上的一个项目：AlluxioBlockManager，同时还有我的github上的博客：blog
这个项目的作用是替代Spark2.0以前默认的TachyonBlockManager，稍后解释为什么要重新开发AlluxioBlockManager，以及Spark2.0的off_heap。

Spark中RDD提供了几种存储级别，不同的存储级别可以带来不同的容错性能，例如 MEMORY_ONLY,MEMORY_ONLY_SER_2…其中，有一种特别的是OFF_HEAP
off_heap的优势在于，在内存有限的条件下，减少不必要的内存消耗，以及频繁的GC问题，提升程序性能。
Spark2.0以前，默认的off_heap是Tachyon，当然，你可以通过继承ExternalBlockManager 来实现你自己想要的任何off_heap。
这里说Tachyon，是因为Spark默认的TachyonBlockManager开发完成之后，就再也没有更新过，以至于Tachyon升级为Alluxio之后移除不使用的API，导致Spark默认off_heap不可用，这个问题Spark社区和Alluxio社区都有反馈:ALLUXIO-1881

Spark2.0的off_heap

从spark2.0开始，社区已经移除默认的TachyonBlockManager以及ExternalBlockManager相关的API：SPARK-12667。
那么，问题来了，在Spark2.0中，OFF_HEAP是怎么处理的呢？数据存在哪里？
上代码：
首先，在StorageLevel里面，不同的存储级别解析成不同的构造函数，从OFF_HEAP的构造函数可以看出来，OFF_HEAP依旧存在。

Object StorageLevel {

val NONE = new StorageLevel(false, false, false, false)

val DISK_ONLY = new StorageLevel(true, false, false, false)

val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)

val MEMORY_ONLY = new StorageLevel(false, true, false, true)

val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)

val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)

大专栏 Spark OFF_HEP变迁div class="line">val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)

Spark OFF_HEP变迁的更多相关文章

《深入理解Spark：核心思想与源码分析》（第2章）
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
Hadoop版本变迁
内容来自<Hadoop技术内幕:深入解析YARN架构设计与实现原理>第2章:http://book.51cto.com/art/201312/422022.htm Hadoop版本变迁当 ...
中国大数据六大技术变迁记(CSDN)
大会召开前期,特别梳理了历届大会亮点以记录中国大数据技术领域发展历程,并立足当下生态圈现状对即将召开的BDTC 2014进行展望: 追本溯源,悉大数据六大技术变迁伴随着大数据技术大会的发展,我们亲历 ...
从大数据技术变迁猜一猜AI人工智能的发展
目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用.在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑. 而A ...
[Big Data - Codis, Mycat（cobar）] 企业互联网+转型实战：如何进行PB级别数据的架构变迁
随着DT时代的来临,数据对于企业经营决策的价值日益凸显,而企业在进行互联网+转型的过程中,如何让数据架构平滑迁移到大数据平台,对于传统业务的转型升级至关重要.企业IT部门该如何进行PB级别大数据平台的 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...

随机推荐

CodeForces 992B Nastya Studies Informatics + Hankson的趣味题（gcd、lcm）
http://codeforces.com/problemset/problem/992/B 题意: 给你区间[l,r]和x,y 问你区间中有多少个数对 (a,b) 使得 gcd(a,b)=x lc ...
Django与AJAX-choice字段-MTV和MVC模型-sweetalert搭建页面
Django中的choice字段应用的场景: 用户信息举列:如用户性别.婚否.学历.工作状态等可以列举出来供选择的信息书写models创建表模型: 数据的获取和查询: 总结: "&quo ...
[WC2015]未来程序（提交答案）
sub1:ans=a*b%c,龟速乘即可. #include <stdio.h> #include <stdlib.h> unsigned long long a, b, c, ...
Uncaught (in promise) NavigationDuplicated {_name: "NavigationDuplicated"}的解决方法
左侧菜单栏时,发现点击路由跳转相同地址会有这个报错 Uncaught (in promise) NavigationDuplicated {_name: "NavigationDuplic ...
springboot 整合thymeleaf 书笔记
pom.xml依赖添加  <dependency> <groupId>org.springframework.boot</ ...
吴裕雄--天生自然python学习笔记：python 用pygame模块制作 MP3 音乐播放器
利用 music 对象来制作一个 MP3 音乐播放器 . 应用程序总览从歌曲清单中选择指定的歌曲,单击“播放”按钮可开始播放, 在播放 xxx 歌曲”的信息. 歌曲播放的过程中,可以暂停.停止,也可 ...
Sam format
reference:https://davetang.org/wiki/tiki-index.php?page=SAM @SQ SN:contig1 LN:9401 (序列ID及长度) 参考序列名,这 ...
bwa index|amb|ann|bwt|pac|sa
-.gapcloser.fa | > t1.fa bwa index -a bwtsw -p t1 t1.fa >t1.bwa_index.log >& #$ ll #tot ...
Apsara Clouder专项技能认证：实现调用API接口
一.API 简介 1.API 的概念 API(Application Programming Interface应用程序编程接口)是一些预定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访 ...
PostgreSQL 安装之 CentOS 7 x64 RPM 安装
PostgresQL 安装环境一.CentOS 7 安装 1. 环境说明 CentOS7 PosgreSQL 11.2 2. 在线安装到目前为止(2019-08-10),CentOS7 默认携带了 ...

Spark OFF_HEP变迁

Spark2.0的off_heap

Spark OFF_HEP变迁的更多相关文章

随机推荐

热门专题