感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制。

本期概览:

1 Receiver生命全周期

首先,我们找到数据来源的入口,入口如下


Receiver的设计是极其巧妙的。它的设计非常的出色,很多的地方都值得我们认真的学习。

在深入认识Receiver之前,我们有必要思考一下,假如没有spark,我们可以尝试思考一下,Receiver不断的接受输入进来的数据,如果是我们来做,我们该怎么做?该怎么启动Receiver呢?

我们尝试从以下几个方向来假设思考。

方式如下所示

Receiver是应用程序启动的一部分,我们启动Receiver的时候,Receiver与InputStream是一一对应的。假如我们启动多个Receiver,一个partition有多条一条数据是没有关系的。但是这里有一个问题,从资源调度的角度看,有可能从一台机器上启动多个Receiver,从而导致负载不均衡,同时也有可能导致Receiver启动失败。因为RDD不同的分片对应不同的分片。在不同的机器上有可能Executor失败,导致任务失败。

我们要要求,只要我们的集群在运行,我们的Receiver就要正常运行。如果Receiver不正常运行,就导致整个集群任务不能执行,这是不可以接受的。

因此,我们的这俩个假设都不可行,可行的办法是,Receiver可以失败,但是不能影响Job的正常运行。Receiver失败后一定会容错,最终一定会成功运行,那么我们来看spark官方是怎么做这么一个巧妙的Receiver的容错性能的。

其实我们可以认为InputStreams与Receivers是一一对应的。

不过,这样可能导致负载不均衡,因为Receiver在不同的机器上。另外Receiver启动可能失败。

至今,我们仍然没有看到启动Receiver的代码,那么启动它的代码在哪呢?


然后接下来就是启动Receiver的方法了

这个代码进一步证明了一个Receiver只有一个InputStream与之对应。


Driver层面决定在哪个Executor上执行Receiver


终止一个Receiver,意味着不用重新启动一个JOB

Receiver start不会重试

为了启动Receiver,启动了一个spark作业


下面一个问题很重要:

这里要启动一个作业,这个作业是每个Receiver都启动一个Job,还是多个Receiver启动一个Job.循环启动每个Receiver,每个Receiver启动一个Job

这样,我们就解决了启动一个Task来启动Receiver的缺点,每个Receiver对应一个Job,对应一个任务。最大程度的避免负载不均衡,不会使得Receiver失败使得整个Job不能运行。另外对解决任务倾斜也有一定好处。

重新启动Receiver的时候会将不可用的Executor剪掉

这里设计得非常的美妙,能保证Receiver无论如何都能成功的启动

任务一旦失败,框架会装作若无其事的ReStartReceiver,可以说设计得天衣无缝。

线程池的方式并发启动Receiver,因为可能不同的Receiver接收来的数据是没有耦合的

到现在,我们视乎还有一团乌云没有解开,那就是决定Receiver具体在哪些机器上,代码如下

最后研究的一行代码:保证Executor活着(默认50个线程,20个并发度),作为一个SparkStreaming应用程序,超过50个数据来源的可能性不大。

spark发行版笔记9的更多相关文章

  1. spark发行版笔记10

    感谢DT大数据梦工厂支持提供技术支持,DT大数据梦工厂专注于Spark发行版定制. 本期概览: 数据接收全生命周期的思考 大数据处理框架中,最重要的就是性能,性能是排在前面的.其次再考虑其他的.因为数 ...

  2. spark发行版笔记4Spark Streaming事务处理彻底掌握

    Spark Streaming事务处理彻底掌握 感谢DT大数据梦工厂支持提供以下内容,DT大数据梦工厂专注于Spark发行版定制. 内容概括: 1Exactly once 2 输出不重复 1 正如银行 ...

  3. spark发行版笔记11

    本期概览: ReceiverTracker架构设计 消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的R ...

  4. spark发行版笔记13

    本期概览: ReceiverTracker架构设计 消息循环系统 ReceiverTracker具体的实现 Spark Streaming作为Spark Core基础 架构之上的一个应用程序,其中的R ...

  5. 【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL

    周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...

  6. 2016年如何选择 Linux 发行版

    不管是在企业级应用还是在消费者领域,2015 对于 Linux 来说都是极其重要的一年.作为一个从 2005 年就开始使用 Linux 的老用户,我有幸见证了 Linux 过去这 10 年里的重大发展 ...

  7. 一款国内好用的Linux发行版?Deepin(深度)Linux

    一款国内好用的Linux发行版?Deepin(深度)Linux 目前来说,要将Linux作为桌面解决方案,对于大多数PC用户来说,当然是不现实的,毕竟Linux的主力用户群体依然是少数极客用户.说白了 ...

  8. Oracle 11g 发行版2的安装,PLSQL_Developer安装 , Oracle数据库安装失败,完全卸载,常用的命令

    Oracle 11g 发行版2的安装 PLSQL_Developer安装 Oracle数据库安装失败,完全卸载oracle11g 常用的命令 Oracle 11g 发行版2的安装 1. 下载 下载地址 ...

  9. Linux发行版Debian操作系统破译密码

    Linux发行版Debian操作系统破译密码 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 其实玩过Linux的小伙伴,对破解服务器密码都应该有所了解,典型的两个代表,我觉得一个是 ...

随机推荐

  1. [译]使用JMH进行微基准测试:不要猜,要测试!

    英文原文:Micro Benchmarking with JMH: Measure, don't guess!翻译地址:使用JMH进行微基准测试:不要猜,要测试!原文作者:Antonio翻译作者:Ho ...

  2. SQL锁死解决办法

    SQL Server 表,记录 死锁解决办法 1. 先根据以下语句 查询 哪些表被 死锁,及 死锁的 spid SELECT request_session_id spid,OBJECT_NAME(r ...

  3. ASP.NET MVC 提示there was error getting the type的解决方法

    在MVC中根据模型类创建控制器时提示there was error getting the type的原因是你新建的这个类模型文件后没有重新生成,先重新生成项目就可以添加控制器了.

  4. 解决httpServletRequest.getParameter获取不到参数

    用httpServletRequest.getParameter接收post请求参数,发送端content Type必须设置为application/x-www-form-urlencoded:否则会 ...

  5. Centos中tomcat7指定jdk

    服务器上默认的jdk是1.8的,但是我想我的tomcat指定一个自定义的jdk怎么办呢,莫急,待老夫慢慢道来. 1.需要有一个除默认外的jdk的安装包(不用配置任何环境变量),如下图: 2.进入tom ...

  6. Rdlc报表 数据汇总分组展示

    1.从工具箱拉出表或者矩阵(本次使用的是矩阵) 2.选择需要的数据集,没有就新建一个数据集,名称自己起好,下面有用到 3.将行组和行列显示出来(右击报表--试图=>) 4.双击行组下的RowGr ...

  7. CSS垂直居中的方法

    前端开发过程中,水平垂直居中是比较常用的.下面直接开门见山,看看不同方法实现垂直居中的各自优点和其不足之处. 1.将“line-height”和“height”设置成一致 这种方法用来实现单行垂直居中 ...

  8. Hibernate 简介

    其实Hibernate本身是个独立的框架,它不需要任何web server或application server的支持.然而,大多数的Hibernate入门介绍都加入了很多非Hibernate的东西, ...

  9. dubbo & zookeeper & springMVC

    一.安装准备 1.环境简介 名称 版本 OS Mac OS X 10.11.5 JDK 1.8.0_51 dubbo 2.5.4 tomcat 8.0.35 Zookeeper 3.4.8 maven ...

  10. 开发微信小程序 中遇到的坑 及解决方法

    1.wx.request 只能访问 https 解决: 新建项目  不填appid  即可访问 localhost 2.页面中多重三元表达式  解析有问题 解决: <!--{{index}} { ...