Spark 定制版：003~Spark Streaming（三）

本讲内容：

a. Spark Streaming Job 架构和运行机制
b. Spark Streaming Job 容错架构和运行机制

注：本讲内容基于Spark 1.6.1版本（在2016年5月来说是Spark最新版本）讲解。

上节回顾:

上节课谈到Spark Streaming是基于DStream编程。DStream是逻辑级别的，而RDD是物理级别的。DStream是随着时间的流动内部将集合封装RDD。对DStream的操作，归根结底还是对其RDD进行的操作。

如果将Spark Streaming放在坐标系中，并以Y轴表示对RDD的操作，RDD的依赖关系构成了整个job的逻辑应用，以X轴作为时间。随着时间的流逝，以固定的时间间隔（Batch Interval）产生一个个job实例，进而在集群中运行。

同时也为大家详细总结并揭秘 Spark Streaming五大核心特征：特征1：逻辑管理、特征2：时间管理、特征3：流式输入和输出、特征4：高容错、特征5：事务处理。最后结合Spark Streaming源码做了进一步解析。

开讲

由上一讲可以得知，以固定的时间间隔（Batch Interval）产生一个个job实例。那么在时间维度和空间维度组成的时空维度的Spark Streaming中，Job的架构和运行机制、及其容错架构和运行机制是怎样的呢？

那我们从爱因斯坦的相对时空讲起吧：

a、时间和空间是紧密联系的统一体，也称为时空连续体。
b、时空是相对的，不同的观察者看到的时间，长度，质量都可以不一样。
c、对于两个没有联系的事件，没有绝对的先后顺序。但是因果关系可以确定事件的先后，比如Job的实例产生并运行在集群中，那么Job实例的产生事件必然发生在Job运行集群中之前。

就是说Job的实例产生和单向流动的时间之间，没有必然的联系；在这里时间只是一种假象。

怎么更好的理解这句话呢？那我们就得从以下方面为大家逐步解答。

什么是Spark Streaming Job 架构和运行机制？

对于一般的Spark应用程序来说，是RDD的action操作触发了Job的运行。那对于SparkStreaming来说，Job是怎么样运行的呢？我们在编写SparkStreaming程序的时候，设置了BatchDuration，Job每隔BatchDuration时间会自动触发，这个功能是Spark Streaming框架提供了一个定时器，时间一到就将编写的程序提交给Spark，并以Spark job的方式运行。

通过案例透视Job架构和运行机制

案例代码如下：

将上述代码打成JAR包，再上传到集群中运行

集群中运行结果如下

运行过程总图如下

案例详情解析　

a、首先通过StreamingContext调用start方法，其内部再启动JobScheduler的Start方法，进行消息循环；

(StreamingContext.scala,610行代码)

（JobScheduler.scala,83行代码）

b、在JobScheduler的start内部会构造JobGenerator和ReceiverTacker；

（JobScheduler.scala,82、83行代码）

c、然后调用JobGenerator和ReceiverTacker的start方法执行以下操作：

（JobScheduler.scala,79、98行代码）

（ReceiverTacker.scala,149、157行代码）

JobGenerator启动后会不断的根据batchDuration生成一个个的Job ；

（JobScheduler.scala,208行代码）

ReceiverTracker的作用主要是两点：

1.对Receiver的运行进行管理，ReceiverTracker启动时会调用lanuchReceivers()方法，进而会使用rpc通信启动Receiver(实际代码中，Receiver外面还有一层包装ReceiverSupervisor实现高可用)

（ReceiverTracker.scala,423行代码）

2.管理Receiver的元数据，供Job对数据进行索引，元数据的核心结构是receivedBlockTracker

（ReceiverTracker.scala,106~112行代码）

d、在Receiver收到数据后会通过ReceiverSupervisor存储到Executor的BlockManager中；

e、同时把数据的Metadata信息发送给Driver中的ReceiverTracker，在ReceiverTracker内部会通过ReceivedBlockTracker来管理接受到的元数据信息；

这里面涉及到两个Job的概念：

每个BatchInterval会产生一个具体的Job，其实这里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph而生成的RDD的DAG而已，从Java角度讲，相当于Runnable接口实例，此时要想运行Job需要提交给JobScheduler，在JobScheduler中通过线程池的方式找到一个单独的线程来提交Job到集群运行（其实是在线程中基于RDD的Action触发真正的作业的运行）

为什么使用线程池呢？

a 、作业不断生成，所以为了提升效率，我们需要线程池；这和在Executor中通过线程池执行Task有异曲同工之妙；
b 、有可能设置了Job的FAIR公平调度的方式，这个时候也需要多线程的支持；

Spark Streaming Job 容错架构和运行机制

Spark Streaming是基于DStream的容错机制，DStream是随着时间流逝不断的产生RDD，也就是说DStream是在固定的时间上操作RDD，容错会划分到每一次所形成的RDD。

　　Spark Streaming的容错包括 Executor 与 Driver两方面的容错机制：

　　a、 Executor 容错：

　　　　1. 数据接收：分布式方式、wal方式，先写日志再保存数据到Executor

　　　　2. 任务执行安全性 Job基于RDD容错：

　　b、Driver容错： checkpoint 。

　　基于RDD的特性，它的容错机制主要就是两种：

　　　　1. 基于checkpoint；

　　　　　　在stage之间，是宽依赖，产生了shuffle操作，lineage链条过于复杂和冗长，这时候就需要做checkpoint。

　　　　2. 基于lineage（血统）的容错：

　　　　　　一般而言，spark选择血统容错，因为对于大规模的数据集，做检查点的成本很高。

　　　　　　考虑到RDD的依赖关系，每个stage内部都是窄依赖，此时一般基于lineage容错，方便高效。

　　总结： stage内部做lineage，stage之间做checkpoint。

备注：
1、DT大数据梦工厂微信公众号DT_Spark
2、Spark大神级专家：王家林
3、新浪微博: http://www.weibo.com/ilovepains

Dream_Spark-----Spark 定制版：003~Spark Streaming（三）的更多相关文章

Dream_Spark-----Spark 定制版：005~贯通Spark Streaming流计算框架的运行源码
Spark 定制版:005~贯通Spark Streaming流计算框架的运行源码本讲内容: a. 在线动态计算分类最热门商品案例回顾与演示 b. 基于案例贯通Spark Streaming的运 ...
Dream_Spark-----Spark 定制版：004~Spark Streaming事务处理彻底掌握
Spark 定制版:004~Spark Streaming事务处理彻底掌握本讲内容: a. Exactly Once b. 输出不重复注:本讲内容基于Spark 1.6.1版本(在2016年5月来 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
[Spark] 06 - What is Spark Streaming
前言 Ref: 一文读懂 Spark 和 Spark Streaming[简明扼要的概览] 在讲解 "流计算" 之前,先做一个简单的回顾,亲! 一.MapReduce 的问题所在 ...
Spark小课堂Week2 Hello Streaming
Spark小课堂Week2 Hello Streaming 我们是怎么进行数据处理的? 批量方式处理目前最常采用的是批量方式处理,指非工作时间运行,定时或者事件触发.这种方式的好处是逻辑简单,不影响 ...
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...
大数据学习day18----第三阶段spark01--------0.前言（分布式运算框架的核心思想，MR与Spark的比较，spark可以怎么运行，spark提交到spark集群的方式）1. spark(standalone模式)的安装 2. Spark各个角色的功能 3.SparkShell的使用，spark编程入门（wordcount案例）
0.前言 0.1 分布式运算框架的核心思想(此处以MR运行在yarn上为例) 提交job时,resourcemanager(图中写成了master)会根据数据的量以及工作的复杂度,解析工作量,从而 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
【译】Spark官方文档——Spark Configuration（Spark配置）
注重版权,尊重他人劳动转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html Spark主要提供三种位置配置系统: 环境变量:用来启动 ...

随机推荐

Game over 作业
终于有一篇不拼代码拼码字的作业了,哈哈哈..... 从寒假到这次结束,经历的博客及编码作业的过程前面七次作业做个分类: 通往博客园和C++的第一步. 知识点:让我们对C++做一个预习,在学C++前有 ...
Ubuntu安装eclipse，并创建桌面快捷方式
系统:Ubuntu 16.04 JDK版本:1.8.0_121 Ubuntu下安装JDK配置环境变量可见我的这篇文章 http://www.cnblogs.com/AloneZ/p/Ubuntu1 ...
PAT乙级(Basic Level)练习题-NowCoder数列总结
题目描述 NowCoder最近在研究一个数列: F(0) = 7 F(1) = 11 F(n) = F(n-1) + F(n-2) (n≥2) 他称之为NowCoder数列.请你帮忙确认一下数列中第n ...
[转帖] 学习 Linux 大页的内存知识
一.在解释什么情况下需要开启大页和为啥需要开启大页前先了解下Linux下页的相关的知识:以下的内容是基于32位的系统,4K的内存页大小做出的计算1)目录表,用来存放页表的位置,共包含1024个目录en ...
php常用几种设计模式的应用场景
1.单例设计模式所谓单例模式,即在应用程序中最多只有该类的一个实例存在,一旦创建,就会一直存在于内存中! 单例设计模式常应用于数据库类设计,采用单例模式,只连接一次数据库,防止打开多个数据库连接. ...
QT试验（1）
今天,用Qt Creator写第一个简单的小程序“HelloQt”,运行时报错:error: cannot open C:\Users\敏\AppData\Local\Temp\main.obj.51 ...
深入理解C++中的异常处理机制
异常处理增强错误恢复能力是提高代码健壮性的最有力的途径之一,C语言中采用的错误处理方法被认为是紧耦合的,函数的使用者必须在非常靠近函数调用的地方编写错误处理代码,这样会使得其变得笨拙和难以使用.C ...
【设计模式】—— 命令模式Commond
前言:[模式总览]——————————by xingoo 模式意图将一个请求封装成一个对象,从而对这个命令执行撤销.重做等操作. 典型的Eclipse开发中,编辑器的操作就需要用到这个模式,比如Un ...
如何把EntityList转换成DataSet
public static DataSet ToDataSet<TSource>(this IList<TSource> list) { Type elementType = ...
java 枚举封装操作方法
前言: 由于刚转java项目,所以对于java语言比较陌生,尤其是lambda和一些诸如(一个java文件只能有一个public class)等等的零散知识点之类... 使我觉得就语言的层级来说..n ...

Dream_Spark-----Spark 定制版：003~Spark Streaming（三）

Spark 定制版：003~Spark Streaming（三）

上节回顾:

开讲

Dream_Spark-----Spark 定制版：003~Spark Streaming（三）的更多相关文章

随机推荐

热门专题