Spark Job具体的物理执行

即使采用pipeline的方式，函数f对依赖的RDD中的数据集合的操作也会有两种方式：

1.f(record)，f作用于集合的每一条记录，每次只作用于一条记录

2.f(records)，f一次性作用于集合的全部数据；

Spark采用的是第一种方式，因为：

1.无需等待，可以最大化的使用集群的计算资源

2.减少OOM的产生

3.最大化的有利于并发

4.可以精准的控制每一个Partition本身(Dependency)及其内部的计算(compute)

5.基于lineage的算子流动式函数式计算，可以节省中间结果的产生，可以最快的恢复

不会产生网络流量，因为用的是pipeline。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

物理执行过程

Spark Application里面可以产生1个或者多个job，例如spark-shell默认启动时，内部就没有job，只是作为资源的分配程序，可以在里面写代码产生多个Job，普通程序一般而言，可以有不用的Action，每一个Action一般也会触发一个Job。

Spark是MapReduce思想的一种更加精致和高效的实现，MapReduce有很多不同的具体实现，例如Hadoop的MapReduce基本的计算流程，如下：首先是并发，以JVM为对象的并发Mapper，Mapper中的map的执行会产生输出数据，输出的数据会经由Partitioner指定的规则，放到localFileSystem中，然后再经由Shuffle、Sort、Aggregate变成reducer中的Reduce的输入，执行reduce产生最终的执行结果。hadoop MapReduce执行的流程虽然简单，但是过于死板，尤其是构造复杂算法（迭代）时候，非常不利于算法的实现，且执行效率极为低下。

Spark执行时，物理算法构造和物理执行时，最基本的核心：最大化pipeline

基于pipeline的思想，数据被使用的时候才开始计算，从数据流动的视角来说，是数据流动到计算的位置。实质上，从逻辑的角度来看，是算子在数据上流动。

从算法构建的角度而言，是算子作用于数据，所以是算子在数据上流动。方便算法的构建。

从物理执行的角度而言，是数据流动到计算的位置。方便系统更加高效的运行。

对于pipeline而言，数据计算的位置就是每个Stage中最后的RDD，每个Stage中除了最后一个RDD算子是真实的意外，前面的算子都是假的。

由于计算的Lazy特性，导致计算从后往前回溯，形成Computing Chain，导致的结果就是需要首先计算出具体一个Stage内部左侧的RDD中本次计算依赖的Partition。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

窄依赖的物理执行

一个Stage内部的RDD都是窄依赖，窄依赖计算本身是逻辑上看从stage内部的最左侧的RDD开始计算的，根据Computing Chain，数据（Record）从一个计算步骤流动到下一个计算步骤，以此类推，直到计算到Stage内部的最后一个RDD产生计算结果。

Computing Chain的构建是从后往前回溯构建而成的，而实际的物理计算则是让数据从前往后在算子上流动，直到流动到不能再流动为止，才开始计算下一个Record。这就导致后面的RDD对前面的RDD的依赖，虽然是Partition级别的数据集合的依赖，但是并不需要父RDD把Partition中的所有的Record计算完毕，才整体完后流动数据进行计算。这极大地提高了计算速率。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

宽依赖的物理执行

必须等到依赖的父Stage中的最后一个RDD把全部数据彻底计算完毕，才能够经过shuffle来计算当前的Stage。

Spark Job具体的物理执行的更多相关文章

从物理执行的角度透视spark Job
本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD中 ...
Spark 概念学习系列之从物理执行的角度透视spark Job（十七）
本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD ...
一个 Spark 应用程序的完整执行流程
一个 Spark 应用程序的完整执行流程 1.编写 Spark Application 应用程序 2.打 jar 包,通过 spark-submit 提交执行 3.SparkSubmit 提交执行 4 ...
Spark（五）Spark任务提交方式和执行流程
一.Spark中的基本概念 (1)Application:表示你的应用程序 (2)Driver:表示main()函数,创建SparkContext.由SparkContext负责与ClusterMan ...
Spark的任务提交和执行流程概述
1.概述为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2.Spark中的基本概念 1.Application:表示你的程序 2.Driver:表示main函数,创建 ...
Spark（五） -- Spark Streaming介绍与基本执行过程
Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何不 ...
spark通过合理设置spark.default.parallelism参数提高执行效率
spark中有partition的概念(和slice是同一个概念,在spark1.2中官网已经做出了说明),一般每个partition对应一个task.在我的测试过程中,如果没有设置spark.def ...
spark编译与onyarn的执行
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u014393917/article/details/24640715 Spark on yarn执行 ...
Spark集群和任务执行
[前言:承接<Spark通识>篇] Spark集群组件 Spark是典型的Master/Slave架构,集群主要包括以下4个组件: Driver:Spark框架中的驱动器,运行用户编写Ap ...

随机推荐

CSP 201703-4 地铁修建最小生成树+并查集
地铁修建试题编号: 201703-4 试题名称: 地铁修建时间限制: 1.0s 内存限制: 256.0MB 问题描述: 问题描述 A市有n个交通枢纽,其中1号和n号非常重要,为了加强运输能力, ...
PHP注释-----PHPDOC
用过IDE或看过其他源码的小伙伴们应该都见过类似下面这样的注释 /** * 递归获取所有游戏分类 * @param int $id * @return array */ 看得多了就大概知道了一些规 ...
python dict操作
d1 = {'one': 1, 'two': 2} d2 = {'one': 1, 'two': 2} d3 = {'one': 1, 'two': 2} print(dir(d1)) # 1.con ...
洛谷P1549 棋盘问题（2）
P1549 棋盘问题(2) 题目描述在N*N的棋盘上(1≤N≤10),填入1,2,…,N*N共N*N个数,使得任意两个相邻的数之和为素数. 例如:当N=2时,有: 其相邻数的和为素数的有: 1+2, ...
Codevs 1444 “破锣摇滚”乐队
1444 “破锣摇滚”乐队题目描述 Description 你刚刚继承了流行的“破锣摇滚”乐队录制的尚未发表的N(1 <= N <= 20)首歌的版权.你打算从中精选一些歌曲,发行M ...
django 数据库建表流程,与表结构
目录配置数据库创建表结构多表关连的设置自创建关联表方法自建表和 ManyToManyField 联合使用配置数据库在Django项目的settings.py文件中,配置数据库连接信息: ...
vue 开发笔记
vue 开发记录 marked 插件的使用 import marked from "marked"; import hljs from "highlight.js&quo ...
ldap 报错整理
1.httpd 无法启动先用systemctl status httpd 查看一下日志 1.提示端口号是否冲突,修改httpd.conf端口号 2.提示没有权限:检查selinux,防火墙是否关闭或 ...
day7计算作业详解
1.day7题目 1.判断一个数是否是水仙花数, 水仙花数是一个三位数, 三位数的每一位的三次方的和还等于这个数. 那这个数就是一个水仙花数, 例如: 153 = 13 + 53 + 3**3 2.给 ...
shell学习（9）- du和df区别及详解
清明小长假来加班,总得干点啥吧,今天就说说du 和df的区别. 1.区别 du,disk usage,是通过搜索文件来计算每个文件的大小然后累加,du能看到的文件只是一些当前存在的,没有删除的.他计算 ...

Spark Job具体的物理执行

Spark Job具体的物理执行的更多相关文章

随机推荐

热门专题