任务的监控和使用

有几种方式监控spark应用:Web UI,指标和外部方法

Web接口

每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息:

  1. 一系列调度的stage和task
  2. RDD大小和内存的使用概况
  3. 环境变量信息
  4. excutors的相关信息

可以通过http://<driver-node>:4040访问,如果有多个sparkcontext运行在同一个节点,那么端口会依次为4040、4041、4042。

注意这些信息只有在应用执行期间才能看到。如果想要执行完毕查看,那么可以在应用开始前设置spark.eventLog.enabledtrue,这样spark的日志信息会被持久化。

在应用执行结束后查看web UI

当应用执行完毕,可以在Spark History Server上查看日志。可以通过下面的命令启动history server:

./start-history-server.sh

这样默认访问http://<server-url>:18080即可。

如果使用文件系统的provider class(比如spark.history.provider),需要配置spark.history.fs.logDirectory选项。

spark的jobs本身需要配置日志,并且输出到相同的共享、可写目录。比如,下面就把日志输出到hdfs://namenode/shared/spark-logs,client需要增加配置:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs

环境变量

变量 说明
SPARK_DAEMON_MEMORY history server分配的内存
SPARK_DAEMON_JAVA_OPTS JVM选项
SPARK_PUBLIC_DNS 对外的地址,如果没有设置应该是用回环地址,这块没怎么看明白
SPARK_HISTORY_OPTS history server的配置

配置

变量名 默认值 说明
spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider history背后的实现类,目前spark就提供这一种,是基于文件系统的
spark.history.fs.logDirectory file:/tmp/spark-events 支持file://或者hdfs://
spark.history.fs.update.interval 10s 这个是服务器刷新的时间,只有服务器这边刷新了,webUI那边才有反应
spark.history.retainedApplications 50 缓存的应用个数,如果超过限制,会从磁盘加载
spark.history.ui.maxApplications Int.MaxValue 概况首页可以显示的应用数量
spark.history.ui.piort 18080 端口号
spark.history.kerberos.enabled false 是否使用kerberos登陆
spark.history.kerberos.principal kerberos不了解
spark.history.kerberos.keytab kerberos不了解
spark.history.ui.acls.enable false acl校验
spark.history.ui.admin.acls empty 可以查看history server的用户,*代表所有用户
spark.history.fs.cleaner.enabled false 是否周期性的清除日志
spark.history.fs.cleaner.interval 1d 多长时间检查一次,应用日志是否清除
spark.history.fs.cleaner.maxAge 7d 超过这个时间的日志会被清除掉
spark.history.fs.numReplayThreads 25% of available cores history server可以用的处理日志的线程数

注意在概况首页,所有的列都可以点击用来排序。

  1. history server可以同时展示完成或者未完成的spark任务。如果应用在失败后有多次尝试,失败的记录也会展示出来。
  2. 未完成的应用需要等待服务器内部刷新。刷新的时间可以通过spark.history.fs.update.interval。如果集群很大,那么刷新时间应该长一点,如果想看实时的数据,可以通过web UI查看
  3. application如果中途直接退出,那么会被标注为未完成。
  4. 想要标记spark为完成状态,需要sc.stop()方法执行

Rest API

另外可以通过UI查看指标。这样可以让开发者很容易的创建一些可视化的工具。这些命令同时也只支持正在运行的应用。对于history server,访问的地址是http://<server-url>:18080/api/v1,对于正在运行的任务,可以访问http://localhost:4040/api/v1

在这些api中,应用的标识为ID[app-id]。当通过YARN启动时,每个应用可能会有多次尝试,只有在cluster模式下才有 应用尝试的id,client模式是没有的。如果是集群模式,那么app-id其实是[base-app-id]/[attempt-id],其中base-app-id是yarn的appid。

?status=[active|complete|pending|failed] 可以列出对应的状态

url 说明
/applications 列出所有的应用。?status=[complete|running]选择对应的状态展示?minDate=[date]显示最小日期的应用,?maxDate=[date]``minEndDate=[date]``?maxEndDate=[date]``?limit=[limit]
/applications/[app-id]/jobs 展示对应的jobs
/applications/[app-id]/jobs/[job-id] job信息
/applications/[app-id]/stages stages信息
/applications/[app-id]/executors excutors信息
/applications/[app-id]/streaming/statistics streaming信息

其他工具

其他相关的性能调优的工具:

  1. 集群监控,可以使用Ganglia
  2. 操作系统监控,可以用dstat, iostat, iotop
  3. JVM可以用jstack, jstat, jconsole

Spark监控官方文档学习笔记的更多相关文章

  1. Spark Streaming官方文档学习--上

    官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...

  2. pm2 官方文档 学习笔记

    一.安装 1.安装 npm install pm2 -g 2.更新 npm install pm2 -g && pm2 update pm2 update 是为了刷新 PM2 的守护进 ...

  3. vue.js 2.0 官方文档学习笔记 —— 01. vue 介绍

    这是我的vue.js 2.0的学习笔记,采取了将官方文档中的代码集中到一个文件的形式.目的是保存下来,方便自己查阅. !官方文档:https://cn.vuejs.org/v2/guide/ 01. ...

  4. Vue2.0 官方文档学习笔记

    VUE2.0官方文档 基础部分: 1.VUE简介 Vue是一个基于MVVM的框架,其中M代表数据处理层,V代表视图层即我们在Vue组件中的html部分,VM即M和V的结合层,处理M层相应的逻辑数据,在 ...

  5. Spark Streaming官方文档学习--下

    Accumulators and Broadcast Variables 这些不能从checkpoint重新恢复 如果想启动检查点的时候使用这两个变量,就需要创建这写变量的懒惰的singleton实例 ...

  6. Vue.js官方文档学习笔记(一)起步篇

    Vue.js起步 Vue.js介绍 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架.与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用.Vue 的核心库 ...

  7. Less 官方文档学习笔记

    LESS 是css的一种扩展,它的编辑器是基于node.js 的less.js,将less文件编译成css文件(可压缩). 其中的概念: 变量:定义变量来代替某个值,只能编译一次,本质是“常量”.例如 ...

  8. Vue.js官方文档学习笔记(三)创建Vue实例

    创建Vue实例 每个 Vue 应用都是通过用 Vue 函数创建一个新的 Vue 实例开始的: var vm=new Vue({ //选项 }) Vue的设计受到了mvvm的启发 当创建一个 Vue 实 ...

  9. Vue.js官方文档学习笔记(二)组件化应用的构建

    组件化应用的构建 组件化应用允许我们使用小型.独立和通常可复用的组件构建大型应用. Vue注册组件 Vue.component('todo-item',{template:'<li>这是个 ...

随机推荐

  1. 读取不标准的JSON数据

    正常的JSON数据 [      {"key":"UI","value":"UII"},      {"key ...

  2. Git命令汇总(补充篇)

    上一篇<Git命令汇总基础篇>总结了使用Git的基本命令,这一篇作为补充主要给大家讲一些平时使用中的技巧和总结 . 学会了这些命令,已经基本解决了使用Git中大部分问题. 1.gitign ...

  3. jQuery选取所有复选框被选中的值并用Ajax异步提交数据

    昨天和朋友做一个后台管理系统项目的时候涉及到复选框批量操作,如果用submit表单提交挺方便的,但是要实现用jQuery结合Ajax异步提交数据就有点麻烦了,因为我之前做过的项目中基本上没用Ajax来 ...

  4. Python初识--基础

    碎碎念 最初想写一些机器学习算法的实现类的文章,但发现自己工作经验不足,即使写出来,也只是一些应用场景十分狭隘的小实验: 了解到身边有些朋友和同学也想了解学习一下脚本语言Python(毕竟是后起之秀) ...

  5. Js 调用 WebService 实例

    Html页面代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/ ...

  6. Web前端学习——CSS

    一.CSS简介CSS全称cascading style sheeding,层叠样式列表.CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化.二.CSS组成1.选择器(1) ...

  7. Sagit.Framework For IOS 开发框架入门开发教程1:框架下载与环境配置

    背景: 前天开源了框架:开源:Sagit.Framework For IOS 开发框架 所以注定要追补一套开发教程了,所以尽量抽空了!!! 步骤 1:下载框架源码 GitHub:https://git ...

  8. 【JDK1.8】JDK1.8集合源码阅读——IdentityHashMap

    一.前言 今天我们来看一下本次集合源码阅读里的最后一个Map--IdentityHashMap.这个Map之所以放在最后是因为它用到的情况最少,也相较于其他的map来说比较特殊.就笔者来说,到目前为止 ...

  9. tyvj4869 罪犯分组

    看数据范围,果断状压.真是比愤怒的小鸟还智障..... #include<bits/stdc++.h> using namespace std; #define MAXN 500000+1 ...

  10. 安装phpnow服务[Apache_pn]提示失败的解决方法

    win 7/win 8/Win10 phpnow提示"安装服务[Apache_pn]失败"错误解决办法汇总 常常在安装phpnow的时候,提示"安装服务 [ Apache_pn ] 失败&q ...