Spark streaming的执行流程

http://www.cnblogs.com/shenh062326/p/3946341.html 其实流程是从这里转载下来的，我只是在流程叙述中做了一下的标注。当然为了自己能记住的更清楚，我没有直接copy而是打出来的。

1、客户端提交作业后，启动Driver，Driver是Spark作业的Master（也就是通过Driver来启动Receiver，定时去启动任务的处理，注意的是，驱动启动任务会受前一个任务执行的影响。也就是前一个任务没有执行完成后，是不会启动后边的任务的。所以，注意你的streaming的执行时间，绝对不要超过Recive数据的时间）

2、每个作业包含多个Executor，每个Executor以线程的方式运行task，Spark Streaming至少包含一个Receiver task。（一个Executor就是一个spark进程，在yarn中就是一个container，这个大家应该知道。然后Receiver task是在driver中创建的，我理解一个Receiver是运行在一个Executor中的。然后如果想要创建多个Receiver，那么需要大概这样做(1 to 10).map(_.createStream....)，这样就能创建10个receiver task啦。注意这个数量当然不能超过你的结点数量啦。还有个问题，通常使用kafka比较合适，因为kafka是stream向kafka来poll数据。而他妈的flume默认只支持pull，如果想支持poll，那需要定制sink，那真是太恶心了。）

3、Receiver接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另外一个Executor上。（默认情况下接受数据是200毫秒生成一个block，我理解一个block应该是一个partition?这个还不确定，需要对照源代码看一下；然后会把生成的Block随机扔到不同的Executor，同时，driver去派发任务时，也会找到就近的Executor。我理解，节点中的所有executor都应该会有数据才对）

4、ReceiverTracker维护Receiver汇报的BlockId。（这个ReceiverTracker应该是维护在Driver中，Driver会根据维护的这些数据块进行任务的派发）

5、Driver定时生成JobGenerator，根据DStream的关系生成逻辑RDD，然后创建Jobset，交给JobScheduler。

6、JobScheduler负责调度Jobset，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成相应的Stages，每个stage包含一到多个task。（我记得DAGScheduler会对任务做一层优化）

7、TaskScheduler负责把task调度到Executor上，并维护task的运行状态。

8、当tasks，stages，jobset完成后，单个batch才算完成。

Spark streaming的执行流程的更多相关文章

Spark SQL底层执行流程详解
本文目录一.Apache Spark 二.Spark SQL发展历程三.Spark SQL底层执行原理四.Catalyst 的两大优化一.Apache Spark Apache Spark是用 ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
spark streaming的理解和应用
1.Spark Streaming简介官方网站解释:http://spark.apache.org/docs/latest/streaming-programming-guide.html 该博客转 ...
实时流计算Spark Streaming原理介绍
1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的.具备容错机制的实时流数据的处理.支持从多种数据源获取数据,包 ...
Spark Streaming之一：整体介绍
提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈.从它的视角来看,目前的大数据处理可 ...
Spark Streaming运行流程及源码解析（一）
本系列主要描述Spark Streaming的运行流程,然后对每个流程的源码分别进行解析之前总听同事说Spark源码有多么棒,咱也不知道,就是疯狂点头.今天也来撸一下Spark源码. 对Spark的 ...
Spark Streaming连接TCP Socket
1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitte ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

随机推荐

【uoj428】普通的计数题
Portal --> uoj428 Solution 不会胖子的一个log正解qwq只能怂怂滴写分治了qwq 首先就是一个我想不到的转化qwq 我们将第\(i\)次操作加入的数看成一个编 ...
asp.net连接数据库超时的解决办法
错误提示:“超时时间已到.超时时间已到,但是尚未从池中获取连接.出现这种情况可能是因为所有池连接均在使用,并且达到了最大池大小. ” 经过几天辛苦写的代码,终于实现了功能丰富的查询功能,但是使用的过 ...
菜单栏--Dom选择器
制作一个左侧菜单栏,包含菜单目录和内容点击菜单栏才会展示内容,否则隐藏内容二.事例 2.1 菜单栏基本样式 <body> <div style="height: 48p ...
Object类型的怎么判断空值
例如 Object result; 我直接这样是不行的 if(result==null) //这样是错的 ... 要这样判断 if(result == System.DBNull.Value) //这 ...
Java模拟http请求远程调用接口工具类
package ln; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamRea ...
bzoj千题计划205：bzoj1966: [Ahoi2005]VIRUS 病毒检测
http://www.lydsy.com/JudgeOnline/problem.php?id=1966 f[i][j] 表示s的前i个和t的前j个是否匹配转移看代码注意初始化: f[0][0]= ...
Mac下配置环境变量重启后不生效解决（.bash_profile vs .bashrc）（bash/zsh下不加载.bashrc问题解决）
参考上一篇文章说明:http://www.cnblogs.com/EasonJim/p/6283094.html 得知加载顺序如下: /etc/profile /etc/paths ~/.bash_p ...
Phalcon框架之———— 2.0升级到3.0 问题Model验证问题解决
Github源码:https://github.com/phalcon/cphalcon/tree/master/phalcon/validation/validator Phalcon 2.0 Mo ...
一个ssm综合小案例-商品订单管理-第一天
项目需求分析: 功能需求:登录,商品列表查询,修改项目环境及技术栈: 项目构成及环境: 本项目采用 maven 构建环境要求: IDEA Version: 2017.2.5 Tomcat Vers ...
[iOS]Xcode处理过时方法的警告
####强迫症的福利, 有的时候, 我们特别讨厌Xcode中的代码警告, 以下就是遇到各种警告的时候的处理方法:(后续会一直更新) 产生警告的原因: 某些方法废弃了, 会产生警告! 样式: 处理方法: ...

Spark streaming的执行流程

Spark streaming的执行流程的更多相关文章

随机推荐

热门专题