Spark的核心RDD

Resilient Distributed Datasets(弹性分布式数据集)

Spark运行原理与RDD理论

　　Spark与MapReduce对比,MapReduce的计算和迭代是基于磁盘的,而Spark的迭代和计算是尽量基于内存,只有在内存空间不能容纳计算结果时才将溢出的部分数据缓冲到磁盘存储,因此Spark是将内存与磁盘结合起来使用的一种架构,它既可以适应超大型的批量离线数据集处理(因为它可以基于磁盘),也可以适应基于实时的流数据分析计算(因为它可以基于内存迭代)。

　　Spark是分布式的基于内存的迭代式计算框架,当然它也可以基于磁盘做迭代计算,根据官方说法,基于磁盘的迭代计算也会比基于磁盘的MapReduce计算快10多倍,而基于内存的迭代计算则比基于内存的MapReduce计算快100倍以上;同时由于Spark是迭代式的计算,因此它天生擅长于将多步骤的Job通过应用层面向过程的流水化操作将其转换成底层的多个Job串联操作,这在第一代计算框架MapReduce中需要我们程序员手动分解多个步骤的操作到各个Job作业中去,于此我们如果基于MR来编写Job应用会耗费大量的代码;虽然Hive可以通过HQL来简化MR的编写过程,但是毕竟Hive的简化是很有限度的,而且Hive数据仓库的HQL查询仍然是基于磁盘的(因为底层仍然是执行MR代码)。

　　Spark的迭代计算过程中,从一个节点计算完成之后的数据到下一个节点的传送过程需要历经一个shuffle过程,如果一个应用需要多个Job步骤来支撑则自然会涉及到多个节点传送数据的多次shuffle过程。

Spark的主要功能模块

交互式查询:基于Spark-Shell的交互式查询和基于Spark-Sql的交互式查询
流式数据处理:实时计算分析
批量数据处理:离线分析计算

Spark客户端Driver—>SparkContext

RDD(Resilient Distributed Datasets(弹性分布式数据集))

RDD是Spark的运行时(Spark Runtime)内核实现,内核涵盖两个部分:
A、数据源：
Spark处理的数据来源可以是HDFS、Hive、HBase、S3(亚马逊云储存平台)、MySql、Oracle等数据源;处理之后的数据也可以被输出到HDFS、Hive、HBase、S3、MySql、Oracle及其当前的控制台终端
B、调度器：Yarn、Mesos、AWS

RDD被称为弹性分布式数据集,它具有如下特征:

A、弹性与伸缩性:
1)、自动进行磁盘数据迭代和内存数据迭代两种操作模式的切换,数据优先在内存中进行迭代,当内存容量有限时再将溢出部分数据缓冲到磁盘进行迭代
2)、作业链步骤的高度容错机制
当一个应用存在多个操作步骤(Stage:阶段)时,如果在作业执行过程中某个步骤出错,则只需要从出错步骤的前一个步骤后重新执行后面的步骤来恢复;而无需从整个应用的第一个步骤开始恢复
3)、作业步骤如果出错或失败则会自动进行特定次数(默认为3次)的重试(该重试包括步骤本身的重试和基于步骤操作底层节点Task计算失败的重试(默认4次))
4)、重新提交或重试时仅提交计算失败的那些数据分片来重新计算,这可以从细粒度上控制重新计算的数据量

注:Spark中对操作步骤(操作阶段)Stage的定义:
1)、如果数据涉及到从一个节点转移并重新分配数据到另一个节点则表示从一个Stage过渡到另一个Stage;从MapReduce原理的角度来理解就是当数据发生reduce、shuffle、sort等操作时都将涉及到数据在节点之间转移;而从SQL概念的角度来理解就是当发生group by、distinct、order by、join、union等操作时都将涉及到数据在节点之间转移;

2)、如果数据操作并没有导致数据在节点之间发生转移(即在同一个节点上进行的本地操作)则表示为Spark概念中的一个Stage内执行的操作,一个Stage内执行的操作相当于MapReduce概念中的map任务操作,这种操作执行的并发度很高(因为这种操作充分利用了集群节点的并发计算能力),而对于SQL概念而言则相当于where和having操作。

application>job>stage>task(jvm)

在以下情况下RDD会缓存操作步骤中的中间数据(注意:并不一定会缓存每一个步骤的中间结果):
1、某个计算步骤非常耗时则会缓存此步骤的计算结果
2、计算步骤链很长时会加大缓存步骤计算结果的频次
3、shuffle到其它节点上的数据会被shuffle到的目标节点缓存一次
4、从一个作业切换到下一个作业时将发生一次checkpoint操作,在此,于checkpoint操作之前会缓存上一个作业的中间结果;checkpoint操作会将数据放置于磁盘文件系统中去以保证数据不发生丢失

RDD从逻辑上看是一个抽象分布式数据集的概念,它的底层数据存储于集群中不同节点上的磁盘文件系统中,存储是按照分区(partition)方式进行存储;所有Spark操作都可以看成是一系列对RDD对象的操作,而RDD是数据集合的抽象,它可以使用SparkContext(Spark上下文)来创建,SparkContext是Spark集群操作的入口,如果是在Spark-Shell下操作,则Spark会自动创建一个基于已有配置的默认SparkContext对象,如果是自己编写作业Jar则需要自己手动创建(与Hadoop中的FileSystem一样可以通过Configution配置参数来构建,也可以基于classpath中的配置文件来构建);

一个简单的测试：

//下面是通过Spark上下文调用textFile函数创建一个包装好底层数据集的RDD对象:

//这里没有指定前缀hdfs://YunMaster01:9000,但是SparkContext(Spark上下文,即sc对象)中已经封装了这些默认的配置信息,即创建Spark上下文对象时就已经封装了这些上下文配置信息(包括操作的底层数据源,如这里的HDFS);这里最好不要加上hdfs前缀,因为加上了之后代码就被编译后固化了,造成不可配置,如果不加则SparkContext可以基于配置来自动选择(数据源类型可以通过配置来改变),提升高可维护性。

scala>val dataSet=sc.textFile("/spark/input")

//SparkContext调用textFile函数将返回一个org.apache.spark.rdd.RDD[String]类型的对象(RDD在Spark的架构源码中被Scala定义为一个接口(trait)类型;方括号中的String表示RDD集合中的元素类型为字符串类型);此RDD的具体实现是MapPartitionRDD(即:字典分区RDD);textFile操作仅仅是执行数据抽象,并没有立即执行数据的读取(read)操作,数据的读取操作会延迟到执行action动作时才发生;因此textFile函数属于一种transformation动作,transformation动作是lazy级别的操作。

//查看数据源的输入路径(如果数据源使用HDFS则显示为HDFS路径),以下如不特别加以说明默认都是基于HDFS的数据源(因为这个最常用)

//toDebugString函数会根据数据集的来源路径(RDD依赖)进行反向推理并从上到下依次显示RDD路径源列表

scala>dataSet.toDebugString()

//返回数据集中的记录数量,这会启动一个action(textFile函数是一种转换(transformation),不会启动action);action是指Spark会在底层启动作业(Job)或任务(Task)的计算操作;而转换(transformation)仅仅是实现数据的封装和抽象(只涉及到数据在节点本地上的抽象读(注意:没有真正意义上的读,因为没有产生任何IO操作),但是数据的写操作则属于action操作,因为它涉及到IO操作过程,比如:saveAsTextFile函数)

scala>dataSet.count

//Spark中的一个分区(partition)相当于HDFS中的一个块(Block),即Spark中一个partition的尺寸等于一个HDFS文件块的尺寸(BlockSize=128M)

//下面调用flatMap函数处理dataSet集合中的每一行,此函数调用完成之后又将产生一个新的RDD对象结果集,实际上所有的Spark操作都是基于RDD集合对象的操作(一切皆为RDD操作)

scala>val dataSet02=dataSet.flatMap(_.split(" "))

//实现第二次映射操作产生新的RDD集合对象

scala>val dataSet03=dataSet02.map(word=>(word,1))

//上面的两个map算子相当于MapReduce中的map方法的操作;而下面与reduce相关的算子则相当于MapReduce中的reduce方法的操作

//由于reduce操作涉及到在节点之间转移和重新分配数据,因此此过程涉及到shuffle机制,执行reduce操作过程中产生的shuffle是为了归并相同Key的记录到同一分组以执行SQL概念中的分组统计

scala>val dataSet04=dataSet03.reduceByKey(_+_)

//从上面的执行过程来看,Spark的底层计算原理与Hadoop的底层计算原理是类同的,只是Spark在此基础上引入了RDD的概念,将一切的操作归入集合RDD的操作(实际上,Hadoop中MapReduce操作本身就是针对集合对象进行操作,只不过Hadoop没有抽象出这样一个概念而已),由于引入了RDD的概念,所以Spark可以将一切操作(应用的所有操作步骤)的输入源和输出源都抽象为RDD对象的操作,这样以来,各个操作之间就可以通过RDD对象链接成操作链(上一个操作的输出源是一个RDD对象,该RDD对象可以直接作为下一个操作的输入源)

//将应用执行过程中处理后的数据最终存储到HDFS文件系统中去(此过程是action操作)

scala>dataSet04.saveAsTextFile("/spark/output")

从浏览器终端看到的Tasks任务详情列表中的Locality Level字段表示RDD迭代计算的数据来源:

A、PROCESS_LOCAL:来自于内存

B、NODE_LOCAL:来自于磁盘

C、ANY:来自于其它节点的shuffle

WordCount计算原理介绍:

A、textFile函数:返回一个HadoopRDD,HadoopRDD在执行action操作计算数据时会将数据从分布式磁盘读取到分布式内存中,即从worker节点的本地磁盘读取到worker节点的本地内存中,RDD更多的是指分布式内存存储,一种数据的逻辑存储系统；
HadoopRDD产生的是一个元组集合(即集合中的每个元素是一个元组类型),元组的第一个元素是行记录的索引(Key,字节偏移量),元组的第二个元素是行记录内容本身(Value)；
基于HadoopRDD会继续产生一个字符串集合MapPartitionRDD,此集合中的每个字符串代表行记录内容(没有行记录的索引,丢弃了字节偏移量Key)
B、flatMap函数:此函数仍然产生一个字符串MapPartitionRDD集合
C、map函数:此函数产生一个二元素元组类型的MapPartitionRDD集合
D、reduceByKey函数:基于相同Key的Value进行统计;先进行本地统计(执行卡宾函数统计可以减少数据传送量,降低网络负载),再进行集群模式统计(shuffle);本地统计之后的结果会根据分区策略将统计后的基于二元素元组的MapPartitionRDD集合数据写出到不同的本地文件中;在数据被传送到另一个节点之前的所有操作都是在同一个节点上的操作;在此,于同一个节点上的所有操作都是在同一个Stage中;同一个Stage中的所有操作都是基于内存的链式迭代操作(你也可以在这个迭代过程中手动缓存中间结果);我们通常说Spark是基于内存迭代的,其缘由就在于此。
E、shuffle是整个分布式计算的性能瓶颈所在,shuffle过程是从一个节点将数据传送到另一个节点的过程(即便在同一个节点上也是切换到另一个JVM进程来处理),这个过程中会针对每一份数据至少产生两次IO(本次磁盘IO、网络IO);shuffle过程是依据数据分区策略来进行的,shuffle之后将从一个Stage阶段过渡到另一个新的Stage阶段,shuffle之后将在另一个新的Stage阶段产生一个基于二元素元组的ShuffledRDD集合。
F、saveAsTextFile函数:将ShuffledRDD集合转换为MapPartitionRDD(实际上就是追加一个字节偏移量Key将每一个元组再包装成一个二元素元组(第一个元素是字节偏移量Key)),然后将其写出到HDFS文件系统中去。

RDD内存迭代原理(Resilient Distributed Datasets)---弹性分布式数据集的更多相关文章

Spark的核心RDD（Resilient Distributed Datasets弹性分布式数据集）
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7 ...
Scala当中什么是RDD（Resilient Distributed Datasets）弹性分布式数据集
RDD(Resilient Distributed Datasets)弹性分布式数据集.你不好理解的话,可以把RDD就可以看成是一个简单的"动态数组"(比如ArrayList),对 ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark RDD（Resilient Distributed Datasets）论文
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
spark 笔记 2： Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing
http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf ucb关于spark的论文,对spark中核心组件RDD最原始.本质的理解, ...
spark hadoop 对比 Resilient Distributed Datasets
hadoop 迭代消耗大每次迭代启动一个完整的MapReduce作业 spark 首要目标就是避免运算时过多的网络和磁盘IO开销 Resilient Distributed Datasets ht ...
Spark核心类：弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188 弹性分布式数据集RDD(Resilient Distributed Dataset) 术 ...
[Berkeley]弹性分布式数据集RDD的介绍（RDD: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 论文翻译）
摘要: 本文提出了分布式内存抽象的概念--弹性分布式数据集(RDD,Resilient Distributed Datasets).它同意开发者在大型集群上运行基于内存的计算.RDD适用于两种 ...

随机推荐

09-JS的事件流的概念(重点)
在学习jQuery的事件之前,大家必须要对JS的事件有所了解.看下文事件的概念 HTML中与javascript交互是通过事件驱动来实现的,例如鼠标点击事件.页面的滚动事件onscroll等等,可以 ...
[小结] 中山纪念中学2018暑期训练小结（划掉）（颓废记）-Day10
[小结] 中山纪念中学2018暑期训练小结(划掉)(颓废记)-Day10 各位看众朋友们,你们好,今天是2018年08月14日,星期二,农历七月初四,欢迎阅看今天的颓废联编节目最近发生的灵异事件有 ...
hadoop2.7集群安装
1. 按照官方文档对单节点的配置,将etc/hadoop/core-site.xml中的localhost改成node13. http://hadoop.apache.org/docs/r2.7.3/ ...
利用 awk 统计nginx 中某一个用户的访问次数
线上总是会遇到攻击,所以就需要分析 access.log 看看那些用户的访问次数不正常,针对这些不正常的用户,要做处理,以 access.log为例说明下怎么统计. 通过 access.log 日志来 ...
安装Pangolin
Pangolin是一个用于OpenGL显示/交互以及视频输出的一个轻量级快速开发库一:安装必要的库 1.Glew sudo apt-get install libglew-dev 2.Cmake ...
Python爬取淘宝店铺和评论
1 安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...
Entity Framework 自动生成代码如何用继承
分部类用接口
爱上python之盲注探测脚本
本文转自:i春秋论坛前言: 最近在学python,做了个盲注的简单的跑用户的脚本,仅做个记录. sqmap也有不灵的时候,有时需要根据情况自写脚本探测正文: 本地用大表姐给的sql和p ...
Java常用的经典排序算法：冒泡排序与选择排序
一.冒泡排序冒泡排序(Bubble Sort)是一种交换排序,它的基本思想是:两两比较相邻记录的关键字,如果反序则交换,直到没有反序的记录为 ...
Javascript高级编程学习笔记（36）—— DOM（2）Document
Documet类型了解了基础的Node类型过后,我们来聊聊Node中的Document类型我们知道所有的节点都继承自Node类型所以除了Node类型公有的方法和类型之外,Document类型还有 ...

RDD内存迭代原理(Resilient Distributed Datasets)---弹性分布式数据集