Spark job server是一个基于Spark的服务系统,提供了管理SparkJob,context,jar的RestFul接口。

专注标注原文链接 http://www.cnblogs.com/shenh062326/p/6193375.html

使用说明

参考 http://debugo.com/spark-jobserver/

原理介绍

服务端JobServer首先启动,它会启动一个名叫WebApi的HttpService服务,它提供下面这几个Routes

val myRoutes = cors {
binaryRoutes ~ jarRoutes ~ contextRoutes ~ jobRoutes ~
dataRoutes ~ healthzRoutes ~ otherRoutes
}

可以看到,spark job server支持二进制,jar,context,job,data,health,和其他这几类服务。用户发送http请求到服务端后,WebApi会调用相应的routes。这里我将介绍两个最主要的Routes,分别是contextRoutes和jobRoutes。

contextRoutes

在contextRoutes的处理增加context(一个context对应一个SparkContext)逻辑中,会发送AddContext消息给LocalContextSupervisorActor(看起来当前只支持spark client模式), LocalContextSupervisorActor首先会判断contextName是否已经存在,如果存在则抛异常。否则创建context。(支持多个sparkcontext,代码中设置了spark.driver.allowMultipleContexts=true, 虽然spark不禁止使用多个sparkcontext,但可能会出问题,因为spark源码中很多地方的假定都是基于sparkcontext,比如共享内存,thread local变量,许多全局的标识。SPARK-2243例子中出现的情况是一个spark job结束后另外一个spark streaming job也失败)。多个SparkContext会以存在HashMap中。

另外contextRoutes还提供了删除和更新(先删除后增加)context的功能。

jobRoutes

jobRoutes最主要的功能是提交 job,如果提交job时指定了context,spark job server会把job运行在相应的context中;通过没有指定,spark job server则会启动一个临时的context运行job。spark job server运行job时会调用用户代码中的validate方法验证输入,然后调用用户代码中的runjob执行作业的逻辑,同时把context传递给用户代码。

jobRoutes还提供了查询job信息,kill job等功能。

Spark Job Server的优缺点总结
优点:
提供了restful接口;能管理job,context,jar等功能;方便用户重用context,cache的数据。

缺陷

1 用户编写程序需要基于spark job server提供的接口,参考LongPiJob,继承于api.SparkJob。缺点:用户既要操作spark原生的接口,又要继承spark job server的SparkJob接口。

2 一个JVM启动多个SparkContext,可能会出问题。现在spark job Server的做法是忽略这种问题。

3 同一个jvm内启动多个sparkcontext,即使不出错,也可能会出现多个sparkcontext相互影响,如内存,网络(boardCast,getMapOutStatus,collect等)磁盘。需要提供类似接入层的逻辑,启动多个机器运行sparkContext。

虽然存在一些问题,但spark job server向人们提供了一种操作spark context和job的方式,值得我们在构建spark应用平台时借鉴。

Spark job server原理初探的更多相关文章

  1. 【转】Spark History Server 架构原理介绍

    [From]https://blog.csdn.net/u013332124/article/details/88350345 Spark History Server 是spark内置的一个http ...

  2. Spark History Server配置使用

    Spark history Server产生背景 以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息:但该WEB ...

  3. Spark学习笔记-使用Spark History Server

    在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是 说,Spark应用程序运行完后,将无法查看应用程序的历史记 ...

  4. 4.Apache Spark的工作原理

    Apache Spark的工作原理 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark ...

  5. MXNet之ps-lite及parameter server原理

    MXNet之ps-lite及parameter server原理 ps-lite框架是DMLC组自行实现的parameter server通信框架,是DMLC其他项目的核心,例如其深度学习框架MXNE ...

  6. Python源代码剖析笔记3-Python运行原理初探

    Python源代码剖析笔记3-Python执行原理初探 本文简书地址:http://www.jianshu.com/p/03af86845c95 之前写了几篇源代码剖析笔记,然而慢慢觉得没有从一个宏观 ...

  7. [Spark性能调优] 第一章:性能调优的本质、Spark资源使用原理和调优要点分析

    本課主題 大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子 引言 我们谈大数据性能调优,到底在谈什么,它的本质 ...

  8. Spark生态以及原理

    spark 生态及运行原理 Spark 特点 运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算.官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapR ...

  9. Spark Scheduler内部原理剖析

    文章正文 通过文章“Spark 核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler则为Spark核心实现的重要一环,其作用就是任务调度.Spark的任务调度 ...

随机推荐

  1. 洛谷P3857 [TJOI2008]彩灯 [线性基]

    题目传送门 彩灯 题目描述 Peter女朋友的生日快到了,他亲自设计了一组彩灯,想给女朋友一个惊喜.已知一组彩灯是由一排N个独立的灯泡构成的,并且有M个开关控制它们.从数学的角度看,这一排彩灯的任何一 ...

  2. 【面试总结-编程】多行两列数据,实现同key的value求和并输出

    一个文件,两列,多行. 第一列是字母,第二列是数字,同列数据之间通过空格分割. 统计首列字母相同的第二列之和. 样例输入: A 5 B 6 OO 7 A 6 A 2 OO 2 输出: A:13 B:6 ...

  3. 基于springboot实现http响应异常信息国际化

    背景 国际化是指在设计软件,将软件与特定语言及地区脱钩的过程.当软件被移植到不同的语言及地区时,软件本身不用做内部工程上的改变或修正. 本文提到的异常响应信息国际化是指:前端向后台发起请求,后台在处理 ...

  4. 深入理解javascript作用域系列第二篇

    前面的话 大多数时候,我们对作用域产生混乱的主要原因是分不清楚应该按照函数位置的嵌套顺序,还是按照函数的调用顺序进行变量查找.再加上this机制的干扰,使得变量查找极易出错.这实际上是由两种作用域工作 ...

  5. [HNOI2008]玩具装箱TOY --- DP + 斜率优化 / 决策单调性

    [HNOI2008]玩具装箱TOY 题目描述: P教授要去看奥运,但是他舍不下他的玩具,于是他决定把所有的玩具运到北京. 他使用自己的压缩器进行压缩,其可以将任意物品变成一堆,再放到一种特殊的一维容器 ...

  6. 关于iis6.0远程溢出漏洞

    漏洞描述 漏洞编号:CVE-2017-7269 发现人员:Zhiniang Peng和Chen Wu(华南理工大学信息安全实验室,计算机科学与工程学院) 漏洞简述:开启WebDAV服务的IIS 6.0 ...

  7. noip2009最优贸易

    试题描述 C 国有 n 个大城市和 m 条道路,每条道路连接这 n 个城市中的某两个城市.任意两个城市之间最多只有一条道路直接相连.这 m 条道路中有一部分为单向通行的道路,一部分为双向通行的道路,双 ...

  8. php上传中文文件文件名乱码问题

    php上传文件是最最基础的一个技术点,但是深入进去也有不少问题需要解决,这不,上传中文文件后,文件名变成了乱码. 下面是问题代码,很简单: 1.问题代码 html部分: <html> &l ...

  9. [转]Activity详解 Intent显式跳转和隐式跳转

    Activity 生命周期             显式 Intent 调用          1     //创建一个显式的 Intent 对象(方法一:在构造函数中指定)  2      Inte ...

  10. 发现一个CentOS第三方源epel的仓库地址(repos.fedorapeople.org)

    这个站点(http://repos.fedorapeople.org)很有意思,比如要安装maven,官方源默认是没有的,当然可以安装epel源,而如果只要单独安装,可以直接安装一个仓库地址. 下面将 ...