Spark学习之RDD编程（2）

1. Spark中的RDD是一个不可变的分布式对象集合。

2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。

3. 创建RDD:1）读取一个外部数据集2）在驱动器程序里分发驱动器程序中的对象集合。

4. RDD支持的操作：

1）转换操作，由一个RDD生成一个新的RDD。

2）行动操作，对RDD进行计算结果，并把结果返回到驱动器程序中，或者把结果存储到外部存储系统（如HDFS）。

5. Spark程序或者shell会话都会按如下方式工作：

1）从外部数据创建出输入RDD。

2）使用诸如filter()这样的转化操作对RDD进行转化，以定义一个新的RDD。

3）告诉Spark对需要被重用的中间结果RDD执行persist()操作。

4）使用行动操作 （例如count()和first()等)来触发一次并行计算，Spark会对计算进行优化后在执行。

6. 创建RDD

快速创建RDD，把程序中一个已有的集合传给SparkContext的parallelize()方法，不过这种方法除了开发原型和测试时，这种方式用的并不多。

Python中的parallelize()方法

    lines = sc.parallelize(["pandas","i like pandas"])

Scala中的parallelize()方法

    val lines = sc.parallelize(List("pandas","i like pandas"))

Java中的parallelize()方法

    JavaRDD<String> lines = sc.parallelize(Arrays.asList("pandas","i like pandas"))

7. 惰性求值

RDD的转化操作都是惰性求值的。

8. 向Spark传递函数

8.1 Python

传递比较短的函数，使用lambda表达式来传递；也可以传递顶层函数或是定义的局部函数。

8.2 Scala，可以定义的内联函数、方法的引用或静态方法传递给Spark，就行Scala的其他函数式API一样。

8.3 Java，函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。

9. 常见的转化操作和行动操作

9.1 针对个元素的转化操作

flatmap()       对每个输入元素生成多个输出元素。

map()           接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中的对应元素的。返回的类型不必和输入类型相同。

filter()        接受一个函数，并将RDD中满足该函数的元素放入新RDD中返回。

distinct()      去重

sample(withReplacement,fraction,[seed])         对RDD采样，以及是否替换

9.2 伪集合操作

合并和相交要求RDD数据类型相同。

(不需混洗)union()           生成一个包含两个RDD中所有元素的RDD

(需要混洗)intersection()    求两个RDD共同的元素的RDD

(需要混洗)subtract()        移除一个RDD中的内容

(需要混洗)cartesian)()      与另一个RDD的笛卡尔积

Spark学习之RDD编程（2）的更多相关文章

Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
Spark学习笔记——RDD编程
1.RDD——弹性分布式数据集(Resilient Distributed Dataset) RDD是一个分布式的元素集合,在Spark中,对数据的操作就是创建RDD.转换已有的RDD和调用RDD操作 ...
Spark学习(2) RDD编程
什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.弹性.里面的元素可并行计算的集合 RDD允 ...
02、体验Spark shell下RDD编程
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之 ...
Spark学习之RDD
RDD概述什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...
spark实验(四)--RDD编程(1)
一.实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作: (2)熟悉使用 RDD 编程解决实际具体问题的方法. 二.实验平台操作系统:centos6.4 Spark 版本:1.5.0 ...
Spark学习摘记 —— RDD行动操作API归纳
本文参考参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
spark学习(10)-RDD的介绍和常用算子
RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...

随机推荐

CSS+Jquery实现QQ分组列表
实现效果图如下: 说明: 1.css隐藏分组下的好友内容: 2.Jquery实现点击分组项事件,实现好友内容的显示和隐藏: 3.样式1,可展开多个分组:样式2,只能有一个分组展开: 源码: <! ...
linux 用 rsync 快速删除大量小文件
假设我们在目录 /tmp/to_delete 下有很多小文件 a1 a2 a3 f1 f2 f3 现在我们想快速的删除f 开头的文件. 如果文件量大,用rm 可能会失败,而且会很慢, 所以用rsync ...
registerServiceWorker创建的React项目中的registerServiceWorker作用？
1.安装create-react-app:npm/cnpm installl create-react-app -g 2.创建项目:create-react-app my-first-app 3.此时 ...
socker地址API
大端字节序是指一个整数的高位字节存储在内存的低地址处,低位字节存储在内存的高地址处.小端字节序是指整数的高位字节存储在内存的高地址处,低位字节则存储在内存的低地址处. 现代pc大多采用小端字节序,故小 ...
Core Data 的简单使用
认识cocoa Data在ios开发中的环境情况. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/f ...
[Debug] Node-sass
Meet some problem when trying to install node-sass on windwos. Company has proxy settings, need to r ...
C#如何使用右下角托盘图标notifyIcon
1 拖放一个NotifyIcon控件,并设置图标,还有显示的文字 2 双击这个控件,即当最小化了主窗体,然后双击这个右下角图标的时候,要显示主窗体(大部分程序的用户体验都是这样干的,比如QQ,双击 ...
省市联动选择的一个demo，利用vue+webpack+amaze-vue实现省市区联动选择组件
https://github.com/sunshineJi/vue-city-picker
Vue2.0生命周期和钩子函数的一些理解
转自:https://segmentfault.com/a/1190000008010666 前言在使用vue一个多礼拜后,感觉现在还停留在初级阶段,虽然知道怎么和后端做数据交互,但是对于mount ...
32位win7系统下配置IIS遇到php-cgi.exe - FastCGI 进程意外退出问题的解决的方法
今天重装了一下系统,是32位的WIN7.装完系统后想把IIS装回来,由于有时候须要用到笔记本处理一些事情.结果WEBserver正常了.但IIS的FASTCGI模块始终不能解析PHP,一直报php-c ...

Spark学习之RDD编程（2）

Spark学习之RDD编程（2）

1. Spark中的RDD是一个不可变的分布式对象集合。

2. 在Spark中数据的操作不外乎创建RDD、转化已有的RDD以及调用RDD操作进行求值。

3. 创建RDD:1）读取一个外部数据集2）在驱动器程序里分发驱动器程序中的对象集合。

4. RDD支持的操作：

5. Spark程序或者shell会话都会按如下方式工作：

6. 创建RDD

7. 惰性求值

8. 向Spark传递函数

9. 常见的转化操作和行动操作

Spark学习之RDD编程（2）的更多相关文章

随机推荐

热门专题