转自：http://kaimingwan.com/post/alluxio/effective-spark-rdds-with-alluxio

1. 介绍

近期，作者给我推荐了一篇spark on alluxio的文章。原文地址：Effective Spark RDDs with Alluxio

本文不会全文翻译，主要提取一些文章的内容和观点结合自己的理解做下总结。

2. 引言

文章首先说了像百度、去哪儿这些企业都已经在生产上用上了alluxio，效果很好（spark streaming job提升15倍-300倍）。

在不使用alluxio之前，可能由于内存不足会导致spark job性能变差，甚至无法完成。本文也主要介绍alluxio是如何去改进spark性能，以及使用spark on alluxio的注意点。文中采用spark 2.0， alluxio版本1.2。

alluxio可以使得spark jobs共享内存数据。通过把RDD保存在alluxio使得RDD可以在多个spark job之间共享。

3. Alluxio and Spark RDD Cache

spark提升性能主要是可以把RDD放到Spark executors拥有的内存中，方便下一次访问时可以直接访问。这样就可以起到提升性能的效果。由于可能有很大的数据集，可能有时会导致没有足够的内存用于计算。例如去哪儿之前就遇到过这样的问题，即数据集太大导致无法放入内存。并且如果JOB crash了，这些内存数据也不会持久化。那么下一次访问的时候，就无法从内存取数据来加速了。

将RDD数据存放在ALLUXIO是个可选的方案。spark job不需要配置额外的内存来存放数据，只需要预留足够的内存用于计算即可。数据存放在alluxio不受job crash的影响。

将RDD保存到alluxio时比较简单的，只需要将RDD保存到ALLUXIO即可。有两种方式来保存RDD文件：

saveAsTextFile
saveAsObjectFile

通过以下两种方式，可以从alluxio内存空间读取文件

sc.textFile
sc.objectFile

下面通过一些实验来理解使用alluxio和使用Spark RDD cache的区别

实验硬件信息：single r3.2xlarge Amazon EC2 instance, with 61GB of memory and 8 cores.

4. 保存RDD

实验分别对比的是：

使用 Spark rdd cache: 采用persist()保存RDD
使用alluxio: 采用saveAsTextFile和saveAsObjectFile这两个API

4.1 采用persist()

通过persist() API可以在不同的存储媒介上保存RDD：

作为实验，我们涉及以下的存储方式：

MEMORY_ONLY: 在Spark的JVM内存上存储JAVA对象
MEMORY_ONLY_SER：在Spark的JVM内存上存储序列化后的JAVA对象
DISK_ONLY: 保存在本地磁盘

例子：

rdd.persist(MEMORY_ONLY)

rdd.count()

4.2 采用saveAsTextFile和saveAsObjectFile

例子：

rdd.saveAsTextFile(alluxioPath)

rdd = sc.textFile(alluxioPath)

rdd.count()

5. 读取保存后的RDD

RDD保存后，在后续计算中，都可以读取出来使用。我们通过测试读取RDD并且使用count()来统计行数所消耗的时间来衡量性能。下图是实验的结果：

从图上可以看到，RDD存放在ALLUXIO中，其性能和数据集大小之间的关系是比较稳定的。当RDD存放在Spark JVM内存中时，可以看到当RDD size超过10GB时, MEMORY_ONLY的方式就开始性能下降了。这个主要是由于在Spark Cache当中如果不做序列化，RDD大小会比源文件大很多。所以虽然有61GB的总内存，但是从10G开始就开始性能会下降。

此外图上也能看到，对于太小的数据集来说，RDD存放在Spark JVM中反而比使用alluxio性能更好一些。

对于一个给定内存大小的节点来说，alluxio使得应用能够以内存速度处理更多的数据。（图上看起来就是，Spark JVM cache很容易就放不下比较大的数据集）

Effective Spark RDDs with Alluxio【转】的更多相关文章

Spark RDDs vs DataFrames vs SparkSQL
简介 Spark的 RDD.DataFrame 和 SparkSQL的性能比较. 2方面的比较单条记录的随机查找 aggregation聚合并且sorting后输出使用以下Spark的三种方式来解 ...
<Spark><Programming><RDDs>
Introduction to Core Spark Concepts driver program: 在集群上启动一系列的并行操作包含应用的main函数,定义集群上的分布式数据集,操作数据集通过 ...
Hive架构及Hive On Spark
Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...
Spark之GraphX的Graph_scala学习
/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem ...
搭建一个IntelliJ的Spark项目
之前发现创建一个新项目之后,无法添加scala class 创建新项目选择maven项目,然后选择simple或者quickstart: 进入项目后,在Project Structure里面,在gl ...
spark 三种数据集的关系（一）
Catalyst Optimizer: Dataset 数据集仅可用Scala或Java.但是,我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark ...
Spark OFF_HEP变迁
在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项目的作用是替代Spark2.0以前默认的TachyonB ...
Spark RDD Tutorial
Spark RDD教程这个教程将会帮助你理解和使用Apache Spark RDD.所有的在这个教程中使用的RDD例子将会提供在github上,供大家快速的浏览. 什么是RDD(Rssilient ...
A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets（中英双语）
文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD.Dat ...

随机推荐

Maven实战——常用Maven插件介绍
maven nexus 库已上传了第三方jar,但就是用mvn compile下不到本地回答于 2013-06-04 14:40 你是通过何种方式上传到nexus的? 有给pom文件吗? 如果是单纯 ...
JavaScript 消息框,警告框,确认框,提示框
1.警告框警告框经常用于确保用户可以得到某些信息. 当警告框出现后,用户需要点击确定按钮才能继续进行操作. 语法: alert("文本") 2.确认框确认框用于使用户可以验证或 ...
javascript 基础知识学习1
JavaScript 是脚本语言.浏览器会在读取代码时,逐行地执行脚本代码.而对于传统编程来说,会在执行前对所有代码进行编译.基础知识:1).JavaScript 对大小写敏感.JavaScript ...
kafka负载均衡相关资料收集（二）
[转]关于kafka producer 分区策略的思考 from:http://blog.csdn.net/ouyang111222/article/details/51086037 今天跑了一个简单 ...
Spring 3.0 AOP 之 AOP 术语（一）
关于AOP.之前我已写过一个系列的随笔: <自己实现简单的AOP>,它的关注点在于实现.实现语言是C#,实现方式为自定义实现 RealProxy 抽象类.重写Invoke方法,以便进行方 ...
TensorFlow Google大会总结
一.概述介绍TPU,需要使用XLA编译,否则没有做内部优化,无法达到加速的效果: TPU相关的性能分析器: 二.新版本的输入库之前TensorFlow的输入方式: feed_dict: 太过于低效 ...
MFC带标题栏的窗口和不带标题栏的窗口最大化
原文链接: http://blog.csdn.net/smartgps2008/article/details/7741223 不带标题栏的窗口最大化: 第一种情况:覆盖任务栏 ShowWindow( ...
[转]iptables 命令介绍
iptables防火墙可以用于创建过滤(filter)与NAT规则.所有Linux发行版都能使用iptables,因此理解如何配置iptables将会帮助你更有效地管理Linux防火墙.如果你是第一次 ...
js 什么是深拷贝问题？
一.什么是值类型? 二.什么是引用类型? 三.使用ES Next新特性带来的 Object.assign 方法和扩展运算符: 四.Object.assign 方法和扩展运算符的 “深入浅出” ...
adb 切换android输入法
自动化测试执行时,使用了appium输入法,再手动使用时,需要进入设置里面进行切换.adb 也提供了一条命令使用命令切换 1.找出android里面有多少输入法:adb shell ime list ...

Effective Spark RDDs with Alluxio【转】