Spark学习笔记总结

02. Spark任务流程

1. RDD的依赖关系

RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）

窄依赖
窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用
总结：窄依赖我们形象的比喻为独生子女
宽依赖
宽依赖指的是多个子RDD的Partition会依赖同一个父RDD的Partition

总结：窄依赖我们形象的比喻为超生（多个子女）
查看RDD依赖关系：
整个树形结构：rdd.toDebugString
本身：rdd.dependencies

2. DAG的生成

DAG，有向无环图，原始的RDD通过一系列的转换就就形成了DAG，根据RDD之间的依赖关系的不同将DAG划分成不同的Stage，对于窄依赖，partition的转换处理在Stage中完成计算。对于宽依赖，由于有Shuffle的存在，只能在parent RDD处理完成后，才能开始接下来的计算，因此宽依赖是划分Stage的依据。

3. Spark任务执行流程

大致分为4步：

根据算子生成DAG
将DAG根据宽依赖切分成任务集合的stages
Driver将具体任务分发给Worker
Worker中的executor执行任务
DAGScheduler和TaskScheduler都在Driver中

4. wordcount执行流程

1. wc示例代码

//textFile会产生两个RDD： 1. HadoopRDD -> MapPartitionsRDD

sc.textFile(INPUT_PATH)

  //flatMap产生1个RDD：MapPartitionsRDD

  .flatMap { _.split(" ") }

  //map产生1个RDD：MapPartitionsRDD

  .map { (_, 1) }

  //reduceByKey产生了：ShuffledRDD

  .reduceByKey(_ + _)

  //暂时不管

  .sortBy(_._2, false)

  //saveAsTextFile产生1个RDD：MapPartitionsRDD

  .saveAsTextFile(OUTPUT_PATH)

一共产生了6个RDD

2. 执行流程-切分stage

执行流程：

根据宽依赖划分成了两个stage，后面一个stage需要等待前一个计算完成
第一个stage中的taskSet包含了3个task
一个task就是一个流水线pipelining，可以与其他task并行执行，在这里，任务内容是相同的，只是数据不同。

初接触，记下学习笔记，还有很多问题，望指导，谢谢。

Spark任务流程笔记的更多相关文章

Spark 基本函数学习笔记一
Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions. Transformations为一些数据转换类函数,actions为一些行动类函数: ...
Spark源代码阅读笔记之DiskStore
Spark源代码阅读笔记之DiskStore BlockManager底层通过BlockStore来对数据进行实际的存储.BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持 ...
大数据学习day23-----spark06--------1. Spark执行流程（知识补充：RDD的依赖关系）2. Repartition和coalesce算子的区别 3.触发多次actions时，速度不一样 4. RDD的深入理解（错误例子，RDD数据是如何获取的）5 购物的相关计算
1. Spark执行流程知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖窄依赖指的是 ...
Spark学习之路（七）Spark 运行流程
一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterMan ...
Hadoop/Spark入门学习笔记(完结)
Hadoop基础及演练 ---第1章初识大数据大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术. ---第2章 Hadoop核心HDFS Hadoop ...
Spark学习之路（七）Spark 运行流程[转]
Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterManag ...
spark发行版笔记11
本期概览: ReceiverTracker架构设计消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础架构之上的一个应用程序,其中的R ...
spark发行版笔记10
感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 数据接收全生命周期的思考大数据处理框架中,最重要的就是性能,性能是排在前面的.其次再考虑其他的.因为数 ...
spark发行版笔记9
感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 1 Receiver生命全周期首先,我们找到数据来源的入口,入口如下 Receiver的设计是极其巧妙 ...

随机推荐

你以为你真的会用编辑器----之Emacs
Emacs... -------------------------- EMACS,即Editor MACroS(编辑器宏)的缩写,Emacs,著名的集成开发环境和文本编辑器.Emacs被公认为是最受 ...
超简单CSS3水平动态进度条+小圆球+背景色渐变
实现的的效果图如下:效果是动态加载的代码如下: <!DOCTYPE html> <html lang="en"> <head> <met ...
python+selenium自动化软件测试(第10章)：测试驱动TDD
测试驱动开发模式,要求开发在写业务代码的时候,先写出测试代码,同时单元测试例子决定了如何来写产品的代码,并且不断的成功的执行编写的所有的单元测试例子,不断的完善单元测试例子进而完善产品代码, 这样随着 ...
hdu3081 Marriage Match II(二分+并查集+最大流)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3081 题意: n个女生与n个男生配对,每个女生只能配对某些男生,有些女生相互是朋友,每个女生也可以跟她 ...
[2017-07-18]ELK安装笔记
ELK ElasticSearch LogStash Kibana Server:CentOS 7 采用RPM导入官方源方式进行安装 rpm --import https://artifacts.el ...
java中接口实现多态举例
public class Test4 { public static void main(String[] args){ Instrument ss[]={new Wind(),new Piano() ...
wifi pineapple 外接USB无线网卡桥接外网
0:选择USB网卡在没有有线网络的情况下,可以外挂一个usb无线网卡来桥接上网,目前支持3070L.8187L芯片的网卡,反正linux系统都用这些芯片, 免的安装驱动, 我选择的是 WN-722N ...
WebStorm ES6 语法支持设置&babel使用及自动编译
一.语法支持设置 Preferences > Languages & Frameworks > JavaScript 二.Babel安装 1.全局安装 npm install -g ...
通过新浪ip地址库获取用户省份
<script src="http://apps.bdimg.com/libs/jquery/1.11.3/jquery.min.js"></script> ...
一,ESP8266下载和刷固件
用自己的小板测试...... 安排上呢一, ESP8266下载和刷固件(Lua开发----体验一下lua开发的魅力所在) 二, 控制一个灯亮灭三, TCP服务器四, TCP客户端五, UDP ...

Spark任务流程笔记