通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构

本期内容：

　　1. Spark Streaming Job架构与运行机制

　　2. Spark Streaming 容错架构与运行机制

　　事实上时间是不存在的，是由人的感官系统感觉时间的存在而已，是一种虚幻的存在，任何时候宇宙中的事情一直在发生着的。

　　Spark Streaming好比时间，一直遵循其运行机制和架构在不停的在运行，无论你写多或者少的应用程序都跳不出这个范围。

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

  * 使用Scala开发集群运行的Spark 在线黑名单过滤程序

  * 背景描述：在广告点击计费系统中，我们在线过滤掉黑名单的点击，进而保护广告商的利益，只进行有效的广告点击计费

  * 或者在防刷评分（或者流量）系统，过滤掉无效的投票或者评分或者流量；

  * 实现技术：使用transform Api直接基于RDD编程，进行join操作
　*

  */

object OnlineForeachRDD2DB {

  def main(args: Array[String]){

    /**

      * 创建Spark的配置对象SparkConf，设置Spark程序的运行时的配置信息，

      * 例如说通过setMaster来设置程序要链接的Spark集群的Master的URL,如果设置

      * 为local，则代表Spark程序在本地运行，特别适合于机器配置条件非常差（例如

      * 只有1G的内存）的初学者       *

      */

    val conf = new SparkConf() //创建SparkConf对象

    conf.setAppName("OnlineForeachRDD") //设置应用程序的名称，在程序运行的监控界面可以看到名称

    //conf.setMaster("spark://Master:7077") //此时，程序在Spark集群

    conf.setMaster("local[6]")

    //设置batchDuration时间间隔来控制Job生成的频率并且创建Spark Streaming执行的入口

    val ssc = new StreamingContext(conf, Seconds(5))

    val lines = ssc.socketTextStream("Master", 9999)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    wordCounts.foreachRDD { rdd =>

      rdd.foreachPartition { partitionOfRecords => {

        val connection = ConnectionPool.getConnection()

        partitionOfRecords.foreach(record => {

          val sql = "insert into streaming_itemcount(item,count) values('" + record._1 + "'," + record._2 + ")"

          val stmt = connection.createStatement();

          stmt.executeUpdate(sql);

        })

        ConnectionPool.returnConnection(connection)  // return to the pool for future reuse

      }

      }

    }

    ssc.start()

    ssc.awaitTermination()

  }

}

一. 通过案例透视Job执行过程的Spark Streaming机制解析，案例代码如下：

　　通过运行以上代码对Job运行机制进行解析：

　　　　1. 首先通过StreamingContext调用start方法，其内部再启动JobScheduler的Start方法，进行消息循环；

　　　　2. 在JobScheduler的start内部会构造JobGenerator和ReceiverTacker；

　　　　3. 然后调用JobGenerator和ReceiverTacker的start方法执行以下操作：

　　　　01. JobGenerator启动后会不断的根据batchDuration生成一个个的Job ；

　　　　02. ReceiverTracker启动后首先在Spark Cluster中启动Receiver（其实是在Executor中先启动ReceiverSupervisor）；

　　　　4. 在Receiver收到数据后会通过ReceiverSupervisor存储到Executor ；

　　　　5. 同时把数据的Metadata信息发送给Driver中的ReceiverTracker，在ReceiverTracker内部会通过ReceivedBlockTracker来管理接受到的元数据信息；

　　　　6. 每个BatchInterval会产生一个具体的Job，其实这里的Job不是Spark Core中所指的Job，它只是基于DStreamGraph而生成的RDD的DAG而已；

　　　　7. 要想运行Job需要提交给JobScheduler，在JobScheduler中通过线程池的方式找到一个单独的线程来提交Job到集群运行，在线程中基于RDD的Action触发作业的运行；

　　　　8. 由于流处理过程中作业不断生成，为了提升效率，可以使用线程池。同时有可能设置了Job的FAIR公平调度的方式，也需要多线程的支持；

二. 从容错架构的角度透视Spark Streaming 运行机制：

　　Spark Streaming是基于DStream的容错机制，DStream是随着时间流逝不断的产生RDD，也就是说DStream是在固定的时间上操作RDD，容错会划分到每一次所形成的RDD。

　　Spark Streaming的容错包括 Executor 与 Driver两方面的容错机制：

　　1. Executor 容错：

　　　　01. 数据接收：分布式方式、wal方式，先写日志再保存数据到Executor

　　　　02. 任务执行安全性 Job基于RDD容错：

　　2. Driver容错： checkpoint 。

　　基于RDD的特性，它的容错机制主要就是两种：

　　　　01. 基于checkpoint；

　　　　　　在stage之间，是宽依赖，产生了shuffle操作，lineage链条过于复杂和冗长，这时候就需要做checkpoint。

　　　　02. 基于lineage（血统）的容错：

　　　　　　一般而言，spark选择血统容错，因为对于大规模的数据集，做检查点的成本很高。

　　　　　　考虑到RDD的依赖关系，每个stage内部都是窄依赖，此时一般基于lineage容错，方便高效。

　　总结： stage内部做lineage，stage之间做checkpoint。

通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构的更多相关文章

通过案例对 spark streaming 透彻理解三板斧之一： spark streaming 另类实验
本期内容 : spark streaming另类在线实验瞬间理解spark streaming本质一．我们最开始将从Spark Streaming入手为何从Spark Streaming切入 ...
通过案例对 spark streaming 透彻理解三板斧之二：spark streaming运行机制
本期内容: 1. Spark Streaming架构 2. Spark Streaming运行机制 Spark大数据分析框架的核心部件: spark Core.spark Streaming流计算. ...
通过案例对SparkStreaming透彻理解三板斧之三
本课将从二方面阐述: 一.解密SparkStreaming Job架构和运行机制二.解密SparkStreaming容错架构和运行机制一切不能进行实时流处理的数据都将是无效的数据.在流处理时代,S ...
通过案例对SparkStreaming透彻理解三板斧之一
本节课通过二个部分阐述SparkStreaming的理解: 一.解密SparkStreaming另类在线实验二.瞬间理解SparkStreaming本质 Spark源码定制班主要是自己做发行版.自己 ...
通过案例对SparkStreaming透彻理解三板斧之二
本节课主要从以下二个方面来解密SparkStreaming: 一.解密SparkStreaming运行机制二.解密SparkStreaming架构 SparkStreaming运行时更像SparkC ...
2.Spark Streaming运行机制和架构
1 解密Spark Streaming运行机制上节课我们谈到了技术界的寻龙点穴.这就像过去的风水一样,每个领域都有自己的龙脉,Spark就是龙脉之所在,它的龙穴或者关键点就是SparkStreami ...
深入理解ASP.NET的内部运行机制(转)
WebForms和WebServices作为.NET平台构建Web程序的两大利器,以其开发简单.易于部署的特点得到了广泛的应用,但殊不知微软公司在背后为我们做了大量的基础性工作,以至于我们开发人员只需 ...
[Java] 理解JVM之三：垃圾回收机制
JVM内存中的各个区域都会回收吗? 首先我们知道 Java 栈和本地方法栈在方法执行完成后对应的栈帧就立刻出栈销毁,两者的回收率可以认为是100%:Java 堆中的对象在没有被引用后,即使用完成后会被 ...
理解JAVA与C的运行机制
1.java的运行机制 java的编译过程,将java的源程序(扩展名为.java的文件),由java编译程序将java的字节码文件(.class文件)在jvm上运行,机器码有cpu运行, jvm编译 ...

随机推荐

Jmeter—5 关联响应数据传递-正则表达式提取器
在测试过程中,遇到一个问题:用户登录成功后服务器会返回一个登录凭证,之后所有的操作都需要带上此凭证.我们怎么获取登录凭证并传递给后续的操作? Jmeter提供了正则表达式提取器,用变量提取参数,后续通 ...
Win7下通过eclipse远程连接CDH集群来执行相应的程序以及错误说明
最近尝试这用用eclipse连接CDH的集群,由于之前尝试过很多次都没连上,有一次发现Cloudera Manager是将连接的端口修改了,所以才导致连接不上CDH的集群,之前Apache hadoo ...
css3简单介绍
关于css3我先介绍几个简单的选择器: 先进行设置: 字符串匹配属性选择器: E[alt^="a"] 选择属性中以a开头的元素: E[alt$="a"] 选 ...
拔靴法--Bootstrap--R语言实现
拔靴法属于重复抽样(resampling)方法,与Monte Carlo相比,二者真实的母体不同.它是将已有的观察值作为母体重复抽样, 以求取原先资料不足二无法探讨的资料特性. 举个例子,假设x1,x ...
BackTrack5-r3安装前需要的准备及说明
一. 配置创建一个虚拟机,本教程用的是VMware-workstation-full-10.0.0,BT5-r3-GNOME-64镜像. 这里是BT5-r3-GNOME-64位种子:http://pa ...
初试微信小程序
2016年11月3日,微信小程序终于公测了,大家可以正式开发了.早在这之前,应公司要求,和同事就早早的试了一下微信小程序的开发,特此记录一下: 微信官方小程序文档:https://mp.weixin. ...
NullReferenceException UnityEngine.Transform.get_localPosition
NullReferenceException UnityEngine.Transform.get_localPosition unity程序中,需要取得GO自身的Transform,出现如上空异常, ...
MVC解决方案发布IIS 登录页面需要输入两次帐号问题
IIS项目在本地VS2013 解决方案中正常登录可以进入.发布IIS时出现需要输入两次帐号密码进入主页面最终发现是web.config文件配置问题 web.config 默认配置 <authen ...
ubuntu 常用命令
此处为使用ubuntu中常用的命令,不会全面深入讲解命令,仅供日常使用查看,以备遗忘. 不定时更新! 1.远程传输文件(小文件) scp [user@源文件地址:/目录/.../file] [目的地址 ...
opencv--图像轮廓检测
//图像的轮廓检测上 //By MoreWindows (http://blog.csdn.net/MoreWindows) #include <opencv2/opencv.hpp> u ...

通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构

通过案例对 spark streaming 透彻理解三板斧之三：spark streaming运行机制与架构的更多相关文章

随机推荐

热门专题