Spark学习笔记之SparkRDD

ChouYarn 2024-10-12 05:30:44 原文

Spark学习笔记之SparkRDD

一、基本概念

RDD（resilient distributed datasets）弹性分布式数据集。

来自于两方面

① 内存集合和外部存储系统

② 通过转换来自于其他RDD，如map，filter等

2.创建操作（creation operation）：RDD的创建由SparkContext来负责。

3.转换操作（transformation operation）：将一个RDD通过一定操作转换为另一个RDD。

4.控制操作（control operation）：对RDD进行持久化等。

5.行动操作（action operation）：Spark为惰性计算，对RDD的行动操作都会触发Spark作业的运行。

基本分为两类

① 使操作结果变为Scala变量或者标量。

② 将RDD保存到外部文件或者数据库系统中。

6.RDD分区（partitions）

分区多少关系到对这个RDD进行并行计算的粒度，每一个RDD分区的计算操作都在一个单独的任务中被执行

7.RDD优先位置（preferredLocations）

是RDD中每个分区所存储的位置

8.RDD依赖关系（dependencies）

窄依赖：每一个父RDD的分区最多只被子RDD的一个分区使用

宽依赖：多个子RDD的分区会依赖同一个父RDD的分区

9.RDD分区计算（compute）

Spark中每个RDD的计算都是以分区为单位的，而且RDD中的compute函数都是在对迭代器进行复合，只返回相应分区数据的迭代器。

10.RDD分区函数（partitioner）

两类分区函数：HashPartitioner和RangPartitioner。

二、创建操作

集合创建操作：makeRDD可以指定每个分区perferredLocations参数parallelize则没有
存储创建操作：Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型，Spark同样支持。
基本转换操作

三、转换操作

map：将RDD中T类型一对一转换为U

distinct：返回RDD不重复元素

flatMap：将元素一对多转换

reparation、coalesce：对RDD分区重新划分，reparation只是coalesce接口中shuffle为true的简易实现

randomSplit：将RDD切分

glom：将类型为T的元素转换为Array[T]

union等等

键值RDD转换操作

partitionBy、mapValues、flatMapValues等

RDD依赖关系，Spark生成的RDD对象一般多于用户书写的Spark应用程序中包含的RDD，因为RDD在转换操作过程中产生临时的RDD

四、控制操作

cache（）：

persist（）：保留着RDD的依赖关系

checkpoint（level：StorageLevel）：RDD[T]切断RDD依赖关系

五、行动操作

集合标量行动操作

first：返回RDD第一个元素

count：返回RDD中元素个数

reduce：对RDD的元素进行二元计算

aggregate：聚合函数

fold：是aggregate的便利借口

存储行动操作

saveAsHadoopFile

saveAsHadoopDataset等

Spark学习笔记之SparkRDD的更多相关文章

spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记2（spark所需环境配置
Spark学习笔记2 配置spark所需环境 1.首先先把本地的maven的压缩包解压到本地文件夹中,安装好本地的maven客户端程序,版本没有什么要求不需要最新版的maven客户端. 解压完成之后 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
Spark学习笔记-GraphX-1
Spark学习笔记-GraphX-1 标签: SparkGraphGraphX图计算 2014-09-29 13:04 2339人阅读评论(0) 收藏举报分类: Spark(8) 版权声明: ...
Spark学习笔记3——RDD（下）
目录 Spark学习笔记3--RDD(下) 向Spark传递函数通过匿名内部类通过具名类传递通过带参数的 Java 函数类传递通过 lambda 表达式传递(仅限于 Java 8 及以上) 常 ...
Spark学习笔记0——简单了解和技术架构
目录 Spark学习笔记0--简单了解和技术架构什么是Spark 技术架构和软件栈 Spark Core Spark SQL Spark Streaming MLlib GraphX 集群管理器受 ...
Spark学习笔记2——RDD（上）
目录 Spark学习笔记2--RDD(上) RDD是什么? 例子创建 RDD 并行化方式读取外部数据集方式 RDD 操作转化操作行动操作惰性求值 Spark学习笔记2--RDD(上) 笔记摘 ...
Spark学习笔记1——第一个Spark程序：单词数统计
Spark学习笔记1--第一个Spark程序:单词数统计笔记摘抄自 [美] Holden Karau 等著的<Spark快速大数据分析> 添加依赖通过 Maven 添加 Spark-c ...
Spark学习笔记——读写Hbase
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Ti ...

随机推荐

Android从零开始--安装
1.下载安装eclipse.adt和Android sdk(以前一直以为Android使用的sdk也是java jdk呢,呵呵) 2.都安装完成后配置eclipse的Android的环境,将Andro ...
Maven间接依赖冲突解决办法
如果项目中maven依赖太多,由于还有jar之间的间接依赖,所以可能会存在依赖冲突.依赖冲突大部分都是由于版本冲突引起的,查看maven的依赖关系,可以找到引起冲突的间接依赖如上图,通过Depend ...
zepto.js使用前注意
API:http://www.css88.com/doc/zeptojs_api/ 一.建议:不要从官网下载,而是从 Github 下载了源代码之后自己 Build 一个版本,这样你可以自行挑选适合的 ...
java读取文件内容
获取文件内容 picurl = "http://www.baidu.com/data.txt"; URL urlfile = new URL(picurl); BufferedRe ...
RT-Thread的线程（任务）处理【RT-Thread学习笔记 2】
RT-Thread中使用线程这个概念,而不是任务.两者相似,我在这里把他的线程当作任务来理解了 1.任务处理: 动态任务相关API 创建任务:rt_thread_create函数,创建任务之后会返回r ...
CSS详解
Web前端开发css基础样式总结颜色和单位的使用颜色用颜色的名字表示颜色,比如:red 用16进制表示演示比如:#FF0000 用rgb数值表示颜色,rgb(红,绿,蓝),每个值都在0-255 ...
git 文件重命名
文件重命名 git mv old_name new_name git commit -m 'rename' git push origin master 删除文件 git rm filename
Mysql的视图、存储过程、函数、索引全解析
视图是查询命令结果构成的一个虚拟表(非真实存在),其本质是[根据SQL语句获取动态的数据集,并为其命名],用户使用时只需使用[名称]即可获取结果集合,并可以当作表来查询使用. 1创建视图 --格式:C ...
Sql Server中Float格式转换字符串varchar方法（转）
1.[Sql Server](70) SELECT CONVERT(varchar(100), CAST(@testFloat AS decimal(38,2)))SELECT STR(@testF ...
Python 之 for循环中的lambda
第一种 f = [lambda x: x*i for i in range(4)] (如果将x换成i,调用时候就不用传参数,结果都为3) 对于上面的表达式,调用结果: >>> f ...