关于Spark RDD 的认识

一、基本认识

RDD 是Spark大数据计算引擎中，抽象的一种数据结构。

RDD（Resilient Distributed Dataset），中文意思是弹性分布式数据集，它是Spark中的基本抽象。在Spark源码中，有下面的注释：

RDD 有五个主要的属性：

```
A list of partitions （分区列表）
```

A function for computing each split （分区计算函数） 相同的计算逻辑应用在不同的分区中

A list of dependencies on other RDDs （多个RDD之间存在依赖关系）

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) （对键值对类型的数据进行分区）

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file) （首选位置，计算数据的位置）

二、RDD的执行原理

类似于IO处理，体现了装饰者设计模式。

从计算的角度来看，计算过程受两个因素的影响：计算资源和计算逻辑。执行计算的过程就是将计算资源和计算逻辑进行一定的整合。

spark在执行计算的过程中，会先向集群申请资源，然后把程序的处理逻辑分成一个个的计算任务，然后把任务发到已经分配资源的计算节点上。按照指定的计算模型进行数据计算。

RDD是spark用于数据处理的核心模型。Yarn环境中，RDD的执行原理如下所示：

启动Yarn集群资源

spark申请资源，创建调度节点和计算节点

根据需求，spark把计算逻辑，根据分区，划分成不同的任务

调度节点把任务根据计算节点的状态，发送到对应的计算节点上进行计算

三、在代码中使用RDD

1、创建RDD

从集合（内存）、外部文件、其它RDD中创建RDD，代码如下：

 import org.apache.spark.rdd.RDD

 import org.apache.spark.{SparkConf, SparkContext}

 object Spark01RddCreate {

   def main(args: Array[String]): Unit = {

     System.setProperty("hadoop.home.dir", "C:\\Hadoop\\")

     val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark01rddmemory")

     val sc = new SparkContext(sparkConf)

     // TODO: Spark 从内存中创建RDD

     val list = List(1, 2, 3, 4)

     val rdd1 = sc.parallelize(list)

     val rdd2 = sc.makeRDD(list)

     rdd1.collect().foreach(println)

     rdd2.collect().foreach(println)

     // TODO: Spark 从外部文件中创建RDD

     val sc_text: RDD[String] = sc.textFile("G:\\SNBRecommendSys\\recommender\\DataLoader\\src\\main\\input_data")

     System.out.println("从外部文件中创建RDD：\n")

     sc_text.collect().foreach(println)

     // TODO: Spark 从其他RDD创建RDD

     val flatRDD = sc_text.flatMap(line => {

       line.split(" ")

     })

     System.out.println("从其他RDD创建RDD：\n")

     flatRDD.collect().foreach(println)

     sc.stop()

   }

 }

2、关于RDD并行度的理解

Spark将一个作业切分为多个任务后，会发送给Excutor节点并行计算，能够并行计算的任务数量就是并行度。计算的任务数量可以在创建RDD的时候去指定。

RDD中，分区的数量就是RDD的并行度，设置并行度就是设置分区的数量。

下面代码中，我们可以看到设置并行度，就是在创建RDD的时候，传入的第二个参数值

 import org.apache.spark.{SparkConf, SparkContext}

 object Spark02RddParallelizeSet {

   def main(args: Array[String]): Unit = {

     System.setProperty("hadoop.home.dir", "C:\\Hadoop\\")

     val spark = new SparkConf().setMaster("local[*]").setAppName("RddParallelizeSet")

     val context = new SparkContext(spark)

     val list = List(1, 2, 3, 4, 5)

     // TODO: 从内存创建RDD，并且设置并行执行的任务数量

     // numSlices: Int = defaultParallelism

     val memoryRDD = context.makeRDD(list, 4)

     memoryRDD.collect().foreach(println)

     // TODO: 结束

     context.stop()

   }

 }

我们在一层层进入Spark源码，最终可以查看到关于RDD并行度的相关信息：

我们可以在这个实现方法里看到 scheduler.conf.getInt(参数一，参数二)，参数一是spark配置文件里的一个配置项，参数二的意思是本地机器的cpu核数。调度程序是从spark的配置文件里读取了 spark.default.parallelism 这个配置。如果没有读取到这个配置的话，则并行度设置将会与本地机器的cpu核数一样。

现在回到我们自己写的程序里，在创建spark配置实例的时候，我们其实已经在设置要用多少个本地机器的核数了：

setMaster() 里面的 local[*]，代表的含义是本地机器cpu有多少核，在调度的时候就用到多少核。当然我们也可以设置其它数字，如果你想这样做的话。现在，我们大致可以理解设置并行度是怎么一回事了。

最后，源码是个好东西，多去看优秀的源码，很多不清楚的地方都能够迎刃而解。

加油，共勉！

关于Spark RDD 的认识的更多相关文章

Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
Spark RDD解密
1. 基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数 ...
Spark - RDD（弹性分布式数据集）
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with Logging A Resilient Distribut ...
Spark RDD Operations（1）
以上是对应的RDD的各中操作,相对于MaoReduce只有map.reduce两种操作,Spark针对RDD的操作则比较多 ************************************** ...
Spark RDD的依赖解读
在Spark中, RDD是有依赖关系的,这种依赖关系有两种类型窄依赖(Narrow Dependency) 宽依赖(Wide Dependency) 以下图说明RDD的窄依赖和宽依赖窄依赖窄依赖 ...
Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...

随机推荐

Linux平台下SSD的TRIM指令的最佳使用方式(不区别对待NVMe)
SSD写数据会出现什么问题 SSD读写的单位不是位,而是一个块.如果要改变这个块中的一位,首先要将整个块擦写成1,然后再写入更新的数据. 为了解决擦写块的低效,SSD的策略是将需要改写的块,读取出来, ...
Problem H: 质心算法
Description 在很多应用中,需要对某个目标进行定位.比如对于一个未知坐标的点A,假定已知A点与N个点相邻,且已知N个相邻点的坐标,则可取N个点的质心作为A点坐标的一个估计值. 所谓质心,就是 ...
Java线程池ThreadPoolExecutor面试总结思维导图速记
优点降低资源消耗,通过重复利用已创建的线程降低线程创建和销毁造成的消耗. 提高响应速度,当任务到达时,可以不需要等待线程创建就能立即执行. 提高线程的可管理性类关系接 Executor 一个无返 ...
ubuntu的docker安装
安装docker 安装介绍一下docker 的中央仓库们 Docker官方中央仓库: https://hub.docker.com/ 因为docker 网站在国外所以访问速度和你的运气有关还有网络. ...
PHP array_unshift() 函数
实例插入元素 "blue" 到数组中: <?php$a=array("a"=>"red","b"=> ...
PHP jewishtojd() 函数
------------恢复内容开始------------ 实例把犹太历法的日期转换为儒略日计数: <?php$jd=jewishtojd(6,20,2007);echo $jd;?> ...
最新 laravel5.8 连接redis集群
简介 Redis 是一个开源的,高级键值对存储数据库.由于它包含字符串 , 哈希 , 列表 , 集合 , 和有序集合这些数据类型,所以它通常被称为数据结构服务器. 在使用 Laravel 的 R ...
6.3 省选模拟赛 Decompose 动态dp 树链剖分 set
LINK:Decompose 看起来很难实际上也很难考验选手的dp 树链剖分矩阵乘法的能力. 容易列出dp方程暴力dp 期望得分28. 对于链的情况容易发现dp方程可以转矩阵乘法然后利用线 ...
Pintech品致全新多功能MDO 704E系列示波器全新推出
2020年 7月,Pintech品致全新推出推出首款具有多个模拟通道和多个数字通道的示波器.每个模拟通道带宽为200 MHz,每个模拟通道采样率同时达1 GSa/s,在一台仪器中,实现精确.可重复的. ...
Nginx使用中遇到的问题记录
问题一.关于空格 nginx配置对空格十分敏感,在关键字和符号的前后,一定记得有空格(或换行).一个典型的场景是 if { } 语句,大括号前后要有空格,否则可能出现非预期行为. 问题二.关于serv ...

关于Spark RDD 的认识

关于Spark RDD 的认识的更多相关文章

随机推荐

热门专题