小白学习Spark系列三：RDD常用方法总结

　　上一节简单介绍了Spark的基本原理以及如何调用spark进行打包一个独立应用，那么这节我们来学习下在spark中如何编程，同样先抛出以下几个问题。

Spark支持的数据集，如何理解？

Spark编程中常用到的操作？

一、RDD基础

　　1、RDD简介

　　在上一节的组件图Spark Core中我们简单提到了对弹性分布式数据集：RDD（Resilient Distributed DataSet），它表示分布在多个计算节点上可以并行操作的元素集合，是Spark主要得编程抽象。一般我们广为熟知的数值类型是整型、字符型等，那么RDD是包含这些任意数值类型的不可变对象。在实际编程中，和其他数值类型除了操作不同外并没有直观的区别。

　　2、惰性求值

　　为了节省空间和提高运算效率，Spark使用惰性求值的方式将一些操作合并到一起来减少计算数据的步骤，这就使得RDD支持两种类型的操作：转化操作和行动操作。转化操作会由一个RDD生成另一个新的RDD，而行动操作是会对RDD计算出一个结果，并将结果返回到驱动程序中或者存储到外部存储系统中。

　　转化操作是惰性求值的，意思就是在调用行动操作之前Spark是不会开始真正计算的，它只会使用谱系图来记录这些不同RDD之间的依赖关系，这样就可以在后期行动操作时按需计算真正需要的数据，也可以依靠谱系图在持久化的RDD丢失部分数据时恢复所丢失的数据。例如，在行动操作 first() 中，Saprk只需要扫描文件直到找到第一个数据为止，不需要读取整个文件。默认情况下，Spark的RDD会在每次行动操作时重新计算，如果多个行动操作重用同一个RDD，建议使用RDD.persist()，把该RDD缓存下来，避免不必要的重复计算。

　　那么如何区分结果是由转化操作还是行动操作计算而来的呢？可以观察结果的数据类型，转化操作返回的是RDD，而行动操作返回的是其他的数值型类型。

　　3、一般流程

　　每个Spark程序无外乎如下几个步骤：

　　（1）从外部数据创建出输入的RDD

　　（2）使用诸如 filter() 这样的转化操作对RDD进行转化，以定义新的RDD

　　（3）对需要重用的中间结果进行缓存

　　（4）使用行动操作来触发并行计算

二、RDD常用操作

　　1、创建RDD

　　以下两种创建RDD的方式相比，第一种较为常用，因为第二种方式需要整个数据集首先放在一台机器内存中。

　　（1）外部数据的读取

val test_rdd = sc.textFile("hdfs:///user/test.txt")

　　（2）驱动程序中的集合并行化

val test1_rdd = sc.parallelize(["pandas","noodles","dog"])

val test2_rdd = sc.makeRDD(["pandas","noodles","dog"])

　　2、转化操作

　　（1）针对RDD中各元素的操作

函数	作用
map()（常用）	将函数应用于RDD中每个元素，将返回值构成新的RDD
flatMap()（常用）	将函数引用于RDD中每个元素，将返回的迭代器的所有内容取出重新构成新的RDD
filter()（常用）	filter()的参数为布尔函数，返回满足该布尔函数的元素构成新的RDD
distinct()	去重
sample(withReplacement,[seed])	对RDD采样，以及是否替换

　　（2）对RDD进行伪集合的操作

函数	作用
union()	生成一个包含两个RDD中所有元素的RDD，不去重。类似并集
intersection()	将两个RDD共同的元素构成新的RDD,去重。类似交集
substract()	在左边RDD中移除右边RDD中的内容，类似左连接
cartesian()	与另一个RDD笛卡尔积

　　3、行动操作

函数	作用
collect()（常用）	返回RDD中全部元素
count()（常用）	返回RDD中元素个数
countByValue()（常用）	返回各元素在RDD中出现的次数，返回类型为元组的集合
take(num)（常用）	返回RDD中num个元素
top(num)	返回RDD中最前面的num个元素
takeOrder(num)(ordering)	从RDD中按照提供的顺序返回最前面的num个元素
takeSample(withReplacement,num,[seed])	从RDD中返回任意些元素
reduce(func)（常用）	并行整合RDD中所有数据，类似sum
fold(zero)(func)	和reduce()一样，但是需要提供初始值
aggregate(zeroValue)(seq0p, comb0p)	和reduce()相似，但是通常返回不同类型的函数
foreach(func)（常用）	遍历RDD中每个元素使用传入的函数

　　4、持久化

　　由于Spark RDD是惰性求值的，当我们每次调用行动操作时，都会重算RDD的所有依赖，如果多次行动操作使用同一个RDD，就会导致大量的重复运算。为避免这种现象，可以对数据进行持久化，也就是存储该RDD，保存在各自的分区中。出于不同的目的，可以为RDD选择不同的持久化级别，如下所示：

级别	使用的空间	CPU时间	是否在内存	是否在磁盘	备注
MEMORY_ONLY	高	低	是	否
MEMORY_ONLY_SER	低	高	是	否
MEMORY_AND_DISK	高	中等	部分	部分	如果数据在内存放不下，溢写到磁盘上
MEMORY_AND_DISK_SER	低	高	部分	部分	如果数据在内存放不下，溢写到磁盘上，在内存中放序列化后的数据
DISK_ONLY	低	高	否	是

　　scala中使用 persist() 进行缓存，unpersist()方法可以手动地把持久化RDD从缓存中移除。示例：

import org.apache.spark.storage.StorageLevel

val result = input.map(x => x*x)

result.persist(StorageLevel.DISK_ONLY)

println(result.count())

println(result.collect().mkstring(","))

结束语：纵使掌握了操作RDD的常用函数，但在实际运用中仍然会出现许多疑问。在做项目的过程中，我总结的一些踩坑经验会留在下一节中讲解~

参考：Spark大数据快速分析

小白学习Spark系列三：RDD常用方法总结的更多相关文章

小白学习Spark系列四：RDD踩坑总结（scala+spark2.1 sql常用方法）
初次尝试用 Spark+scala 完成项目的重构,由于两者之前都没接触过,所以边学边用的过程大多艰难.首先面临的是如何快速上手,然后是代码调优.性能调优.本章主要记录自己在项目中遇到的问题以及解决方 ...
小白学习Spark系列一：Spark简介
由于最近在工作中刚接触到scala和Spark,并且作为python中毒者,爬行过程很是艰难,所以这一系列分为几个部分记录下学习<Spark快速大数据分析>的知识点以及自己在工程中遇到的小 ...
小白学习Spark系列六：Spark调参优化
前几节介绍了下常用的函数和常踩的坑以及如何打包程序,现在来说下如何调参优化.当我们开发完一个项目,测试完成后,就要提交到服务器上运行,但运行不稳定,老是抛出如下异常,这就很纳闷了呀,明明测试上没问题, ...
小白学习Spark系列五：scala解析多级json格式字符串
一.背景处理json格式的字符串,key值一定为String类型,但value不确定是什么类型,也可能嵌套json字符串,以下是使用 JSON.parseFull 来解析多层json. 二.实例代码 ...
小白学习Spark系列二：spark应用打包傻瓜式教程（IntelliJ+maven 和 pycharm+jar）
在做spark项目时,我们常常面临如何在本地将其打包,上传至装有spark服务器上运行的问题.下面是我在项目中尝试的两种方案,也踩了不少坑,两者相比,方案一比较简单,本博客提供的jar包适用于spar ...
spark教程(三)-RDD认知与创建
RDD 介绍 spark 最重要的一个概念叫 RDD,Resilient Distributed Dataset,弹性分布式数据集,它是 spark 的最基本的数据(也是计算)抽象. 代码中是一个抽象 ...
spark 系列之一 RDD的使用
spark中常用的两种数据类型,一个是RDD,一个是DataFrame,本篇主要介绍RDD的一些应用场景见代码本代码的应用场景是在spark本地调试(windows环境) /** * 创建 spark ...
[纯小白学习OpenCV系列]官方例程00：世界观与方法论
2015-11-11 ----------------------------------------------------------------------------------- 其实,写博 ...
Telegram学习解析系列(三) : Build Telegram报错分析总结
正好通过这次 Telegram 的运行,很想把常见的项目运行的错误好好的总结一下,在前面的博客中,又星星散散的总结过错误和一些警告的消除方法,这次把错误处理一下,还有Telegram项目中有999+的 ...

随机推荐

洛谷 P1131 BZOJ 1060 [ZJOI2007]时态同步
题目描述小Q在电子工艺实习课上学习焊接电路板.一块电路板由若干个元件组成,我们不妨称之为节点,并将其用数字1,2,3….进行标号.电路板的各个节点由若干不相交的导线相连接,且对于电路板的任何两个节点 ...
Timus - 1209 - 1, 10, 100, 1000...
先上题目: 1209. 1, 10, 100, 1000... Time limit: 1.0 secondMemory limit: 64 MB Let's consider an infinite ...
通过PYTHON操作JIRA的COMMENT注释和TRANSITION工作流
这是目前我们的自动化部署系统要作的,所以先实现吧. >>> from jira import JIRA >>> authed_jira = JIRA(server= ...
http400错误基本都是http请求参数与服务器接收参数不匹配
http400错误基本都是http请求参数与服务器接收参数不匹配造成的, 如:1)post请求,你发了个get请求 2)content-type指定不匹配致使参数无法读出来
Storm工作流程 vs. Spark Stream
看的这个学习课程: http://study.163.com/course/courseLearn.htm?courseId=1002887002#/learn/video?lessonId=1003 ...
Class 找出一个整形数组中的元素的最大值
目的:找出一个整形数组中的元素的最大值以下,我们用类和对象的方法来做. #include<iostream> using namespace std; class Array_m ...
Linux Terminal fortune
Linux下,我们能够使用apt-get安装fortune,这是一个比較有趣的功能在输入fortune之后,Terminal会输出一句名言.诗句,或一些有趣的话: 默认情况下.fortune仅仅会显 ...
Qt的Socket数据通讯的一个样例。
QTcpServer类用来侦听port ,获取QTcpSocket. QTcpSocket有 connected的信号(已经连接),还有readyread()信号,表示已经有数据发过来了.准备读取 ...
NYOJ_268_荷兰国旗问题
荷兰国旗问题时间限制:3000 ms | 内存限制:65535 KB 难度:1 描写叙述荷兰国旗有三横条块构成,自上到下的三条块颜色依次为红.白.蓝.现有若干由红.白.蓝三种颜色的条块序列.要 ...
SpringMVC文件上传和下载的实现
SpringMVC通过MultipartResolver(多部件解析器)对象实现对文件上传的支持. MultipartResolver是一个接口对象,需要通过它的实现类CommonsMultipart ...

小白学习Spark系列三：RDD常用方法总结

小白学习Spark系列三：RDD常用方法总结的更多相关文章

随机推荐

热门专题