转自:http://kaimingwan.com/post/alluxio/effective-spark-rdds-with-alluxio

1. 介绍

近期,作者给我推荐了一篇spark on alluxio的文章。原文地址:Effective Spark RDDs with Alluxio

本文不会全文翻译,主要提取一些文章的内容和观点结合自己的理解做下总结。

2. 引言

文章首先说了像百度、去哪儿这些企业都已经在生产上用上了alluxio,效果很好(spark streaming job提升15倍-300倍)。

在不使用alluxio之前,可能由于内存不足会导致spark job性能变差,甚至无法完成。本文也主要介绍alluxio是如何去改进spark性能,以及使用spark on alluxio的注意点。文中采用spark 2.0, alluxio版本1.2。

alluxio可以使得spark jobs共享内存数据。通过把RDD保存在alluxio使得RDD可以在多个spark job之间共享。

3. Alluxio and Spark RDD Cache

spark提升性能主要是可以把RDD放到Spark executors拥有的内存中,方便下一次访问时可以直接访问。这样就可以起到提升性能的效果。由于可能有很大的数据集,可能有时会导致没有足够的内存用于计算。例如去哪儿之前就遇到过这样的问题,即数据集太大导致无法放入内存。并且如果JOB crash了,这些内存数据也不会持久化。那么下一次访问的时候,就无法从内存取数据来加速了。

将RDD数据存放在ALLUXIO是个可选的方案。spark job不需要配置额外的内存来存放数据,只需要预留足够的内存用于计算即可。数据存放在alluxio不受job crash的影响。

将RDD保存到alluxio时比较简单的,只需要将RDD保存到ALLUXIO即可。有两种方式来保存RDD文件:

  1. saveAsTextFile
  2. saveAsObjectFile

通过以下两种方式,可以从alluxio内存空间读取文件

  1. sc.textFile
  2. sc.objectFile

下面通过一些实验来理解使用alluxio和使用Spark RDD cache的区别

实验硬件信息:single r3.2xlarge Amazon EC2 instance, with 61GB of memory and 8 cores.

4. 保存RDD

实验分别对比的是:

  1. 使用 Spark rdd cache: 采用persist()保存RDD
  2. 使用alluxio: 采用saveAsTextFile和saveAsObjectFile这两个API

4.1 采用persist()

通过persist() API可以在不同的存储媒介上保存RDD:

作为实验,我们涉及以下的存储方式:

  1. MEMORY_ONLY: 在Spark的JVM内存上存储JAVA对象
  2. MEMORY_ONLY_SER:在Spark的JVM内存上存储序列化后的JAVA对象
  3. DISK_ONLY: 保存在本地磁盘

例子:

rdd.persist(MEMORY_ONLY)
rdd.count()

4.2 采用saveAsTextFile和saveAsObjectFile

例子:

rdd.saveAsTextFile(alluxioPath)
rdd = sc.textFile(alluxioPath)
rdd.count()

5. 读取保存后的RDD

RDD保存后,在后续计算中,都可以读取出来使用。我们通过测试读取RDD并且使用count()来统计行数所消耗的时间来衡量性能。下图是实验的结果:

从图上可以看到,RDD存放在ALLUXIO中,其性能和数据集大小之间的关系是比较稳定的。当RDD存放在Spark JVM内存中时,可以看到当RDD size超过10GB时, MEMORY_ONLY的方式就开始性能下降了。这个主要是由于在Spark Cache当中如果不做序列化,RDD大小会比源文件大很多。所以虽然有61GB的总内存,但是从10G开始就开始性能会下降。

此外图上也能看到,对于太小的数据集来说,RDD存放在Spark JVM中反而比使用alluxio性能更好一些。

对于一个给定内存大小的节点来说,alluxio使得应用能够以内存速度处理更多的数据。(图上看起来就是,Spark JVM cache很容易就放不下比较大的数据集)

Effective Spark RDDs with Alluxio【转】的更多相关文章

  1. Spark RDDs vs DataFrames vs SparkSQL

    简介 Spark的 RDD.DataFrame 和 SparkSQL的性能比较. 2方面的比较 单条记录的随机查找 aggregation聚合并且sorting后输出 使用以下Spark的三种方式来解 ...

  2. <Spark><Programming><RDDs>

    Introduction to Core Spark Concepts driver program: 在集群上启动一系列的并行操作 包含应用的main函数,定义集群上的分布式数据集,操作数据集 通过 ...

  3. Hive架构及Hive On Spark

    Hive的所有数据都存在HDFS中. (1)Table:每个表都对应在HDFS中的目录下,数据是经过序列化后存储在该目录中.同时Hive也支持表中的数据存储在其他类型的文件系统中,如NFS或本地文件系 ...

  4. Spark之GraphX的Graph_scala学习

    /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem ...

  5. 搭建一个IntelliJ的Spark项目

    之前发现创建一个新项目之后,无法添加scala class 创建新项目 选择maven项目,然后选择simple或者quickstart: 进入项目后,在Project Structure里面,在gl ...

  6. spark 三种数据集的关系(一)

    Catalyst Optimizer: Dataset 数据集仅可用Scala或Java.但是,我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark ...

  7. Spark OFF_HEP变迁

    在文章的开头,安利一下我自己的github上的一个项目:AlluxioBlockManager,同时还有我的github上的博客:blog这个项目的作用是替代Spark2.0以前默认的TachyonB ...

  8. Spark RDD Tutorial

    Spark RDD教程 这个教程将会帮助你理解和使用Apache Spark RDD.所有的在这个教程中使用的RDD例子将会提供在github上,供大家快速的浏览. 什么是RDD(Rssilient ...

  9. A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets(中英双语)

    文章标题 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets 且谈Apache Spark的API三剑客:RDD.Dat ...

随机推荐

  1. java代码行数计算器

        import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.util. ...

  2. ios中创建自己的框架

    如果你是IOS的新手,并有.net开发的背景(就像我一样),你可能到处去找,哪里有dll呢? 其实,IOS平台是使用框架而不是dll,框架里面包含公共头文件和二进制文件.很不幸,XCode并不支持你自 ...

  3. JSP、Servlet中的相对路径和绝对路径 页面跳转问题

    转自:http://blog.csdn.net/wym19830218/article/details/5503533/ 1.JSP.Servlet中的相对路径和绝对路径 前提:假设你的Http地址为 ...

  4. socket 995 错误 boost

    这个错误的中文解释是:由于线程退出或应用程序请求,已中止 I/O 操作. 最近几天学习boost asio 在抄官方的一个实例代码时遇到 了,这个错误搞了我三天才解决,就是在一行代码中少了一个 s 所 ...

  5. libgdx游戏引擎教程

    第一讲:libgdx游戏引擎教程(一)性能优良的游戏引擎—libgdx http://www.apkbus.com/android-57355-1-1.html 第二讲: libgdx游戏引擎教程(二 ...

  6. iostat 监视I/O子系统

    iostat是I/O statistics(输入/输出统计)的缩写,用来动态监视系统的磁盘操作活动. 11.1. 命令格式 iostat[参数][时间][次数] 11.2. 命令功能 通过iostat ...

  7. linux 文件系统工作原理

    转:<http://linuxperf.com/?p=153> 一.概述 文件系统要解决的一个关键问题是怎样防止掉电或系统崩溃造成数据损坏,在此类意外事件中,导致文件系统损坏的根本原因在于 ...

  8. Android APP通用型拒绝服务、漏洞分析报告

    点评:记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞(目前腾讯金刚审计系统已经可检测此类漏洞),移动安全团队发现了一个安卓客户端的通用型拒绝服务漏洞,来看看他们的详细分析吧. 0xr0 ...

  9. php执行多个存储过程

    2014年3月18日更新: 从以前的使用原生代码来看,只需要将结果集关闭即可,即 $this -> queryID -> close(); . // 使用mysqli方式,修改DbMysq ...

  10. Android Studio多Module开发需要注意的问题

    多module开发,其中的一个为入口module,其他module为独立的“应用”(library) 1.在原有的项目导入另外个项目的module为主项目的次module,即在A项目中添加一个启动B项 ...