Spark - [04] RDD编程

题记部分

一、RDD编程模型

在 Spark 中，RDD 被表示为对象，通过对象上的方法调用来对 RDD 进行转换。经过一系列的 transformations 定义 RDD 之后，就可以调用 actions 触发 RDD的计算，action 可以是向应用程序返回结果（count，collect等），或者是向存储系统保存数据（saveAsTextFile等）。在 Spark 中，只有遇到 action，才会执行 RDD 的计算（即延迟计算），这样在运行时可以通过管道的方式传输多个转换。
要使用 Spark，开发者需要编写一个 Driver 程序，它被提交到集群以调度运行 Worker。

二、RDD的创建

在 Spark 中创建 RDD 的创建方式可以分为三种：

从集合中创建 RDD
从外部存储创建 RDD
从其他 RDD 创建

（1）从集合中创建RDD

# 使用 parallelize( ) 从集合创建

scala> val rdd = sc.parallelize(Array(1,2,3,4,5,6,7,8))

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

# 使用 makeRDD( ) 从集合创建

scala> val rdd1 = sc.makeRDD(Array(1,2,3,4,5,6,7,8))

rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）从外部存储创建RDD

包括本地的文件系统，还有所有 Hadoop 支持的数据集，比如 HDFS、Cassandra、HBase 等。

scala> var rdd2 = sc.textFile("hdfs://host:9000/RELEASE")

rdd2: org.apache.spark.rdd.RDD[String] = hdfs://host:9000/RELEASE

MapPartitionsRDD[4] at textFile at <console>:24

（3）从其他RDD创建

通过 transformation 算子返回 value 类型的RDD 或者 KV 类型的RDD

三、RDD的转换

3.1、Value类型

（1）map( )

作用：返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成。

理解：可以对接收到的每一条数据进行处理

// 创建

scala> val source = sc.parallelize(1 to 10)

source:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[8] at parallelize at <console>:24

// 打印

scala> source.collect()

res7:Array[Int]=Array(1,2,3,4,5,6,7,8,9,10)

// 将所有元素 *2

scala> val mapadd = source.map(_*2)

mapadd:org.apache.spark.rdd.RDD[Int]=MapPartitionsRDD[9] at map at <console>: 26

// 打印最终结果

scala> mapadd.collect()

res8:Array[Int]=Array(2,4,6,8,10,12,14,16,18,20)

（2）mapPartitions( )

作用：类似于 map，但独立地在 RDD 的每一个分片上运行，因此在类型为 T 的 RDD 上运行时，func 的函数类型必须是 Iterator[T] => Iterator[U]。

假设有N个元素，有M个分区，那么map 的函数将被调用N次，而mapPartitions 被调用M次，一个函数一次处理所有分区。

// 创建RDD

scala> val rdd = sc.parallelize(Array(1,2,3,4))

rdd:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[4] at parallelize at <console>:24

// 每个元素*2组成新的RDD

scala> rdd.mapPartitions(x=>x.map(_*2))

res3:org.apache.spark.rdd.RDD[Int]=MapPartitionsRDD [6] at mapPartitions at <console>:27

// 打印新的RDD

scala> res3.collect

res4: Array[Int]=Array(2,4,6,8)

map( ) 和 mapPartitions( ) 区别

map()：每次处理一条数据

mapPartitions()：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区的数据才能释放，可能导致 OOM

开发指导：当内存空间较大的时候建议使用 mapPartition( )，以提高处理效率。

（3）mapPartitionsWithIndex( )

作用：类似于 mapPartitions，但 func 带有一个整数参数表示分片的索引值，因此在类型为 T 的 RDD上运行时，func的函数类型必须是（Int，Iterator[T]） => Iterator[U]

// 创建RDD

scala> val rdd = sc.parallelize(Array(1,2,3,4))

rdd:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[4] at parallelize at <console>:24

// 每个元素跟所在分区形成一个元组组成一个新的RDD

scala> val indexRdd = rdd.mapPartitionsWithIndex((index,items)=>(items.map(index,_)))

indexRdd:org.apache.spark.rdd.RDD[(Int,Int)]=MapPartitionsRDD[5] at mapPartitionsWithIndex at <console>:26

scala>indexRdd.collect

res2:Array[(Int,Int)]=Array((0,1),(0,2),(1,3),(1,4))

（4）flatMap( )

作用：类似于 map，但是每一个输入元素可以被映射为0或者多个输出元素（所以func 应该返回一个序列，而不是单一元素）

需求：创建一个元素为1-5的RDD，运用 flatMap 创建一个新的RDD，新的RDD为原 RDD 的每个元素的2倍（2,4,6,8,10）

// 创建RDD

scala> val sourceFlat = sc.parallelize(1 to 5)

sourceFlat: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at <console>:24

scala>sourceFlat.collect()

res11: Array[Int] = Array(1,2,3,4,5)

scala> val flatMap = sourceFlat.flatMap(1 to _)

flatMap:org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[13] at flatMap at <console>: 26

scala> flatMap.collect()

res12: Array[Int]=Array(1,1,2,1,2,3,1,2,3,4,1,2,3,4,5)

3.2、双Value类型交互

3.3、key-value类型

— 要养成终身学习的习惯 —

Spark - [04] RDD编程的更多相关文章

[Spark] Spark的RDD编程
本篇博客中的操作都在 ./bin/pyspark 中执行. RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的核心抽象.RDD是分布式元素的 ...
Spark的RDD编程(二)公众号undefined110
创建RDD有两种方式:①读取外部数据集,lines=sc.textFile("README.md").②对一个集合进行并行化,lines=sc.parallelize([" ...
Spark RDD编程-大数据课设
目录一.实验目的二.实验平台三.实验内容.要求 1．pyspark交互式编程 2.编写独立应用程序实现数据去重 3.编写独立应用程序实现求平均值问题四.实验过程 (一)pyspark交互式编程 ...
Spark菜鸟学习营Day3 RDD编程进阶
Spark菜鸟学习营Day3 RDD编程进阶 RDD代码简化对于昨天练习的代码,我们可以从几个方面来简化: 使用fluent风格写法,可以减少对于中间变量的定义. 使用lambda表示式来替换对象写 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
【spark 深入学习 06】RDD编程之旅基础篇02-Spaek shell
--------------------- 本节内容: · Spark转换 RDD操作实例 · Spark行动 RDD操作实例 · 参考资料 --------------------- 关于学习编程方 ...
Spark学习笔记2：RDD编程
通过一个简单的单词计数的例子来开始介绍RDD编程. import org.apache.spark.{SparkConf, SparkContext} object word { def main(a ...
Spark编程模型（RDD编程模型）
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用到的四个算子映射到四种算子类型.spark 程序工作在两个空间中:spark rdd空间和 scala原生数据空间.在原 ...
02、体验Spark shell下RDD编程
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之 ...
Spark学习之RDD编程（2）
Spark学习之RDD编程(2) 1. Spark中的RDD是一个不可变的分布式对象集合. 2. 在Spark中数据的操作不外乎创建RDD.转化已有的RDD以及调用RDD操作进行求值. 3. 创建RD ...

随机推荐

MeteoInfo-Java解析与绘图教程(十)_JAVA绘制雷达PPI图
天气雷达的基本要素有很多,特别是双偏振雷达更多,但业务场景经常使用的一般为基本反射率,基本速度这两种要素接下来我们以基本反射率为例,其他的要素也是一样的,一通百通首先我们做基本反射率的图需要确定做 ...
Xcode Swift自动格式化
Xcode Swift自动格式化安装SwiftFormat SwiftFormat 是一款用来格式化Swift代码的命令行工具. 直接用Homebrew安装 brew install swiftfo ...
Base64解码、Base64编码、Base64加密解密规则
转换规则:进行Base64转换的时候,将3个byte(3*8bit = 24bit)的数据,先后放入一个24bit的缓冲区中,先来的byte占高位.数据不足3byte的话,于缓冲器中剩下的bit用0补 ...
Qt编写地图综合应用16-省市轮廓图下载
一.前言之前做获取边界点的时候,主要采用的是在线地图的方式,因为在线地图中直接内置了函数可以根据行政区域的名称来自动获取边界,其实这些边界就是一些点坐标集合连接起来的平滑线,然后形成的轮廓图,这种方 ...
Qt开源作品36-程序守护进程
一.前言没有任何人敢保证自己写的程序没有任何BUG,尤其是在商业项目中,程序量越大,复杂度越高,出错的概率越大,尤其是现场环境千差万别,和当初本地电脑测试环境很可能不一样,有很多特殊情况没有考虑到, ...
Spring Security默认登录页面代码位于哪里？
问:Spring Security默认登录页面代码位于哪里? 答:它是从此类生成的org.springframework.security.web.authentication.ui.DefaultL ...
【译】GitHub Copilot Free 在 Visual Studio 中
可能您还没有听说过,GitHub 刚刚宣布了 Copilot Free(免费版)!好消息是:您现在已经可以在 Visual Studio 中开始使用 Copilot Free 了.它现在已经可用了,我 ...
C# 文件分割和文件合并
C# 文件分割和文件合并 void SplitFile() { string sourceFile = "Old.mp4"; // 源文件路径 string outputFile1 ...
Python调用ChatTTS API接口
Python调用ChatTTS API接口: #********************************************* #author:wgscd #date:2024-7-27 ...
VueJs(1)---操作指南
[VueJs入门] 一.上手步骤 vue.js和jquery一样,只要引入vue.js就可以了. 1.创建一个Vue实例: 先引入Vue.js文件,然后new一个Vue的实例即可.如下面的代码,通过& ...