关于Spark RDD 的认识
一、基本认识
RDD 是Spark大数据计算引擎中,抽象的一种数据结构。
RDD(Resilient Distributed Dataset),中文意思是弹性分布式数据集,它是Spark中的基本抽象。在Spark源码中,有下面的注释:

RDD 有五个主要的属性:
A list of partitions (分区列表)
A function for computing each split (分区计算函数) 相同的计算逻辑应用在不同的分区中
A list of dependencies on other RDDs (多个RDD之间存在依赖关系)
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) (对键值对类型的数据进行分区)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file) (首选位置,计算数据的位置)
- 启动Yarn集群资源
- spark申请资源,创建调度节点和计算节点
- 根据需求,spark把计算逻辑,根据分区,划分成不同的任务
- 调度节点把任务根据计算节点的状态,发送到对应的计算节点上进行计算
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} object Spark01RddCreate {
def main(args: Array[String]): Unit = {
System.setProperty("hadoop.home.dir", "C:\\Hadoop\\")
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark01rddmemory")
val sc = new SparkContext(sparkConf) // TODO: Spark 从内存中创建RDD
val list = List(1, 2, 3, 4)
val rdd1 = sc.parallelize(list)
val rdd2 = sc.makeRDD(list)
rdd1.collect().foreach(println)
rdd2.collect().foreach(println) // TODO: Spark 从外部文件中创建RDD
val sc_text: RDD[String] = sc.textFile("G:\\SNBRecommendSys\\recommender\\DataLoader\\src\\main\\input_data")
System.out.println("从外部文件中创建RDD:\n")
sc_text.collect().foreach(println) // TODO: Spark 从其他RDD创建RDD
val flatRDD = sc_text.flatMap(line => {
line.split(" ")
})
System.out.println("从其他RDD创建RDD:\n")
flatRDD.collect().foreach(println) sc.stop()
}
}
2、关于RDD并行度的理解
import org.apache.spark.{SparkConf, SparkContext}
object Spark02RddParallelizeSet {
def main(args: Array[String]): Unit = {
System.setProperty("hadoop.home.dir", "C:\\Hadoop\\")
val spark = new SparkConf().setMaster("local[*]").setAppName("RddParallelizeSet")
val context = new SparkContext(spark)
val list = List(1, 2, 3, 4, 5)
// TODO: 从内存创建RDD,并且设置并行执行的任务数量
// numSlices: Int = defaultParallelism
val memoryRDD = context.makeRDD(list, 4)
memoryRDD.collect().foreach(println)
// TODO: 结束
context.stop()
}
}
我们在一层层进入Spark源码,最终可以查看到关于RDD并行度的相关信息:

我们可以在这个实现方法里看到 scheduler.conf.getInt(参数一,参数二),参数一是spark配置文件里的一个配置项,参数二的意思是本地机器的cpu核数。调度程序是从spark的配置文件里读取了 spark.default.parallelism 这个配置。如果没有读取到这个配置的话,则并行度设置将会与本地机器的cpu核数一样。
现在回到我们自己写的程序里,在创建spark配置实例的时候,我们其实已经在设置要用多少个本地机器的核数了:

关于Spark RDD 的认识的更多相关文章
- Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
- Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
- Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考 直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
- Spark RDD解密
1. 基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数 ...
- Spark - RDD(弹性分布式数据集)
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with Logging A Resilient Distribut ...
- Spark RDD Operations(1)
以上是对应的RDD的各中操作,相对于MaoReduce只有map.reduce两种操作,Spark针对RDD的操作则比较多 ************************************** ...
- Spark RDD的依赖解读
在Spark中, RDD是有依赖关系的,这种依赖关系有两种类型 窄依赖(Narrow Dependency) 宽依赖(Wide Dependency) 以下图说明RDD的窄依赖和宽依赖 窄依赖 窄依赖 ...
- Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RD ...
- Spark RDD概念学习系列之RDD的转换(十)
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
- Spark RDD概念学习系列之RDD的checkpoint(九)
RDD的检查点 首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
随机推荐
- Python 实现将numpy中的nan和inf,nan替换成对应的均值
nan:not a number inf:infinity;正无穷 numpy中的nan和inf都是float类型 t!=t 返回bool类型的数组(矩阵) np.count_nonzero( ...
- 聊聊Django应用的部署和性能的那些事儿
随着工作的深入,我越来越发现Python Web开发中有很多坑,也一直在羡慕AspNetCore和Go等的可执行文件部署和高性能,以及Spring生态的丰富,不过因为工作用了Django,生活还是要继 ...
- 开源项目推荐 - 巨鲸任务调度平台(Spark、Flink)
Big Whale(巨鲸),为美柚大数据研发的大数据任务调度平台,提供Spark.Flink等离线任务的调度(支持任务间的依赖调度)以及实时任务的监控,并具有批次积压告警.任务异常重启.重复应用监测. ...
- laravel报错1071 Specified key was too long; max key length is 1000 bytes
Laravel 默认使用utf8mb4字符编码,而不是的utf8编码.因此运行php artisan migrate会出现如下错误: [Illuminate\Database\QueryExcepti ...
- python基础day4_列表list
list列表 li = ['alex',[1,2,3],'hjh','nvshen '] l1= li[0] print(l1) # alex l3= li[0:3]#['alex', [1, 2, ...
- 不用注入方式使用Spring管理的对象中的方法,神奇
在小冷工作中遇到这么一个小问题,当你的业务层对象交给spring管理之后,在普通的类中调用这个类中的方法时候,会有个问题这个类在调用时候会一直返回一个null,而且还会抛出一个空指针异常. 小冷在遇到 ...
- Docker这些none:none的镜像,难道就不配拥有名字吗
1 前言 欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章! 搞容器开发一段时间后,想看看都有哪些镜像,执行了一下docker images -a,蒙圈了,有一堆<none> ...
- 双下划线开头的attr方法
# class Foo: # x=1 # def __init__(self,y): # self.y=y # # def __getattr__(self, item): # print('执行__ ...
- 《计算机存储与外设》 1Cache存储器与虚拟存储器
初读这本书,是2020年3,4月吧,以前学的大多数处理器,balabala的,虽然也有介绍储存器的,但总是不是很详细,主要还是关注cpu等计算部件或者总线等事物,就如同这本书中所写,人们往往可以很清楚 ...
- 【学习笔记】ThreadLocal与引用类型相关知识点
0 写在前边 今天以 "TheadLocal 为什么会导致内存泄漏" 为题与朋友们讨论了一波,引出了一些原理性的内容,本文就这个问题作答,并扩展相关的知识点 1 ThreadLoc ...