深入理解RDD原理

首先我们来了解一些Spark的优势：
1.每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。
2.所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。
3.spark提供了更丰富的算子，让操作更方便。
4.更容易的API：支持Python，Scala和Java
其实spark里面也可以实现Mapreduce，但是这里它并不是算法，只是提供了map阶段和reduce阶段，但是在两个阶段提供了很多算法。如Map阶段的map, flatMap, filter, keyBy，Reduce阶段的reduceByKey, sortByKey, mean, gourpBy, sort等。

那么话不多说，上源码~~~

上面是源代码中对RDD的解释：

1、是一个有分区的集合

2、在每一个切片（分区）上都有一个相应的函数，一一对应的

3、每个RDD都会依赖的上一个RDD

4、（可选）如果是（K，V）类型的RDD，会采用分区器（默认的是Hash-Partitioner,规则是key的hashCode 值除以下游模的数量）

5、（可选）如果在HDFS中读数据，在执行task任务的时候一般都会与hdfs中的namenode进行交互，然后在要处理的数据所在的位置（最佳位置），执行任务

看过源码可能大家还有感觉有点抽象，那么RDD到底该怎样去理解呢？下面，就让我来谈谈我是怎样理解的吧。

RDD是一个抽象的数据集，并不是用来装真正要计算的数据，而装的是处理数据的描述信息（即，对哪个文件进行计算，该怎么计算），任何数据在Spark中都被表示为RDD，从编程角度来看，RDD可以简单的看成一个数组，和普通的数组的区别是，RDD中的数据是分布式存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行化处理。因此，Spark应用程序所做的无非是把需要处理的数据转换成RDD，（在这个过程一定要学会区分transformation和action）然后RDD进行一系列的变换和操作从而得到结果。

那么我们该如何创建RDD呢？

RDD可以从普通数组创建出来，也可以从文件系统或者HDFS的文件创建出来。

方式1、举例：从普通数组创建RDD,里面包含了1到9这9个数字，他们分别在3个分区中。

scala>val a=sc.parallelize(1 to 9, 3)    //3是指有三个分区，parallelize是把数据并行化

a:org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:12

方式2、举例：读取文件README.md来创建RDD,文件中的每一行就是RDD中的一个元素

scala> val b = sc.textFile("README.md")

b: org.apache.spark.rdd.RDD[String] = MappedRDD[3] at textFile at <console>:12

Text file RDDs的创建可以使用SparkContext的textFile方法。该方法接受一个文件的URI地址(或者是机器上的一个本地路径，或者是一个hdfs://，等URI)作为参数，并读取文件的一行数据，放入集合中。下面是一个调用例子：

scala>val distFile = sc.textFile("data.txt")

distFile:RDD[String]= MappedRDD@1D4CEE08

一旦创建完成，就可以在distFile上执行数据集操作。例如：想要对所有行的长度进行求和，我们就可以通过如下的map和reduce操作来完成：

distFile.map(s =>s.length).reduce((a+b) =>a+b)

虽然还有别的方式可以创建RDD,但在本文中我们主要使用上述两种方式来创建RDD以说明RDD的API.

下面带给大家一个WordCount例子的图解

分区和分区器的区别：

分区代表并行度，分区越多，并行度越高，一个分区相当于一个task

自定义分区器，决定了在shuffle时候，上游的数据要到下游的哪一个分区

数据均匀分散在多个分区里，每个分区会对应一个task进行计算

在这里，再次描述Spark任务执行流程：

1.把一个Spark程序打成一个Jar包，然后用spark-submit运行，提交到集群 --> Application

2.RDD经过一些转换后，触发Action，这样就形成一个完整的DAG --> Job

3.对DAG根据窄宽依赖（shuffle）进行切分，会生成很多阶段 --> Stage

4.一个Stage会生成多个任务（任务就是一个Java实例，里面有属性和方法）--> Task

注：Task是Spark中最小的执行单元，在资源充足的情况下，Task数量越多（并行），任务执行的越快

Task中方法的计算逻辑是串行的（严格遵循调用顺序）

一个Job（DAG）可以有一个到多个Stage，Stage的提交，要严格的按照先后顺序

具体流程
1、构建DAG：DAGScheduler负责把Spark作业转换成Stage的DAG（Directed Acyclic Graph有向无环图）
2、DAGScheduler根据宽窄依赖切分Stage，然后把Stage封装成TaskSet的形式发送个TaskScheduler；
3、TaskScheduler：维护所有TaskSet，分发Task给各个节点的Executor，spark在提交Application时，可以指定总共占用的内核数（可以简单理解为线程数量），同时也可以指定task的数量，一个task占用一个线程，如果，task的数量大于内核的数量，则没有占用到内核的task会等待其他的task执行完毕，释放资源后，再占用。（原谅我举个不雅的例子，仔细想有没有就像厕所入坑的一样，所有坑被占用时，其他人会等待....）
4、excutor根据数据本地化策略分发Task到线程池，开始执行run方法
5、TaskScheduler监控task的运行状态，负责重试失败的task；
6、所有task运行完成后，SparkContext向Master注销，释放资源；

那么现在我们理解了RDD，也理解了Spark执行流程，最后，我们再把RDD放在流程中，相信你可以有所收获的

坚持资源共享的原则，写的有错的地方多谢指正。。。。。

深入理解RDD原理的更多相关文章

node.js学习（三）简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理
一.一个简单的node程序 1.新建一个txt文件 2.修改后缀修改之后会弹出这个,点击"是" 3.运行test.js 源文件使用node.js运行之后的. 如果该路径下没有该 ...
Atitit 图像处理深刻理解梯度原理计算.v1 qc8
Atitit 图像处理深刻理解梯度原理计算.v1 qc8 1.1. 图像处理梯度计算基本梯度内部梯度外部梯度方向梯度1 2. 图像梯度就是图像边缘吗?2 1.1. 图像处理梯度计算 ...
深入理解PHP原理之变量作用域
26 Aug 08 深入理解PHP原理之变量作用域(Scope in PHP) 作者: Laruence( ) 本文地址: http://www.laruence.com/2008/08/26 ...
深入理解PHP原理之变量分离/引用
19 Sep 08 深入理解PHP原理之变量分离/引用(Variables Separation) 作者: Laruence( ) 本文地址: http://www.laruence.com/20 ...
《深入理解mybatis原理》 MyBatis事务管理机制
MyBatis作为Java语言的数据库框架,对数据库的事务管理是其很重要的一个方面.本文将讲述MyBatis的事务管理的实现机制. 首先介绍MyBatis的事务Transaction的接口设计以及其不 ...
《深入理解mybatis原理》 Mybatis初始化机制具体解释
对于不论什么框架而言.在使用前都要进行一系列的初始化,MyBatis也不例外. 本章将通过下面几点具体介绍MyBatis的初始化过程. 1.MyBatis的初始化做了什么 2. MyBatis基于XM ...
《深入理解mybatis原理》 MyBatis的架构设计以及实例分析
作者博客:http://blog.csdn.net/u010349169/article/category/2309433 MyBatis是目前非常流行的ORM框架,它的功能很强大,然而其实现却比较简 ...
轻松理解Redux原理及工作流程
轻松理解Redux原理及工作流程 Redux由Dan Abramov在2015年创建的科技术语.是受2014年Facebook的Flux架构以及函数式编程语言Elm启发.很快,Redux因其简单易学体 ...
深入理解mybatis原理， Mybatis初始化SqlSessionFactory机制详解(转)
文章转自http://blog.csdn.net/l454822901/article/details/51829785 对于任何框架而言,在使用前都要进行一系列的初始化,MyBatis也不例外.本章 ...

随机推荐

ABP框架系列之九：(Abp-Session-会话)
Introduction ASP.NET Boilerplate provides IAbpSession interface to obtain current user and tenant wi ...
python_day1_变量
一.变量定义: 通俗来讲可变化的量称之为变量,专业的解释为:把程序运算的中间结果临时存到内存里,以备后面的代码继续调用,这几个名字的学名就叫做“变量” 用法: name = 'zzx' 其中name ...
MVC笔记之一：MVC编程模型
MVC是ASPX.NET用于构造Web应用的一种框架,和传统的ASPX.NET开发模式(Web Form)在架构上相同,同样采用三层框架实现,但相比传输开的模式,各层架构更加规范. 传统三层架构: V ...
navicat连接linux系统中mysql-错误：10038
输入命令 netstat -anp(查看所有的进程和端口使用情况) (注:Local Address一列中: 0.0.0.0 表示监听本地所有ip地址,其他电脑是可以访问的,并且修改ip不受影响. ...
vue高级组件之provide / inject
转载:https://blog.csdn.net/Garrettzxd/article/details/81407199 在vue中不同组件通信方式如下 1.父子组件,通过prop 2.非父子组件,通 ...
CentOS No manual entry for man 没有 xx 的手册页条目
yum install -y man man-pages man-pages-overrides https://unix.stackexchange.com/questions/182500/no- ...
Java学习笔记36（File类）
File类可以对操作系统中的文件进行操作: File类的静态成员变量: package demo; import java.io.File; public class FileDemo { publi ...
[CocoaPods]制作CocoaPod
创建自己的CocoaPod非常简单.如果你已经有一个单独的组件,那么你就是最重要的.本指南概述了整个过程,本节中的其他指南更适合更高级用户. 我们建议让CocoaPods在这里努力工作.Running ...
MySQL程序端启动密码错误解决方法
MySQL程序端启动密码错误解决方法一般启动MySQL程序端,都是用mysql -uroot -p命令,当然前提是你的环境变量已经配好了. 为了连接服务器,当调用mysql时,通常需要提供一个MyS ...
python数据结构-数组/列表/栈/队列及实现
首先我们要分清楚一些概念和他们之间的关系数组(array) 表(list) 链表(linked list) 数组链表(array list) 队列(queue) 栈(stack) li ...

深入理解RDD原理

深入理解RDD原理的更多相关文章

随机推荐

热门专题