spark调优篇-spark on yarn web UI

努力的孔子 2024-10-28 21:31:40 原文

spark on yarn 的执行过程在 yarn RM 上无法直接查看，即 http://192.168.10.10:8088，这对于调试程序很不方便，所以需要手动配置

配置方法

1. 配置 spark-defaults.conf

cp spark-defaults.conf.template spark-defaults.conf

添加如下配置

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://hadoop10:9000//user/root/history

spark.serializer                 org.apache.spark.serializer.KryoSerializer

spark.driver.memory              5g

spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.history.fs.logDirectory      hdfs://hadoop10:9000//user/root/history

spark.yarn.historyServer.address master:18080

spark.eventLog.enabled 设置为 true 表示开启日志记录

spark.eventLog.dir 表示存储日志的地址，application 运行过程中所有的日志均存于该目录下，一般设置为 hdfs 路径，也可以设置为本地路径

　　// HDFS：hdfs://hadoop10:9000//user/root/history　　事先创建目录

　　// 本地：file:///directory

spark.history.fs.logDirectory 这个配置和 spark.eventLog.dir 保持一致，spark histroy server 只展示该路径下的信息

spark.yarn.historyServer.address 设置 history server 的 ip port，指向 http://192.168.10.10:8088 上的 Tracking UI

spark.eventLog.compress 是否压缩记录 Spark 事件信息，前提 spark.eventLog.enabled 为 true，默认使用的是 snappy

2. 修改 spark-env.sh

在原来基础上添加

export SPARK_HISTORY_OPTS="-Dspark.history.retainedApplications=15"

spark.history.retainedApplications 设置在 History Server 显示的 Application 历史记录个数，如果超过这个值，旧的应用程序信息将被删除.

3. 启动 Spark History Server

sbin/start-history-server.sh

此时打开 http://192.168.10.10:18080 即可查看

web UI 解析

web ui 包括以下几部分

假设执行如下命令

spark-submit --master yarn --num-executors 8 --executor-cores 5 gpsfreq.py

启动 8 个 Executor，每个 Executor 启动 5 个 core，共 40 个 core

stage

点开第 0个 stage

根据我上面的分析，做了如下改动

减少了 executor 数和 executor core 数

spark-submit --master yarn --num-executors 4 --executor-cores 1 gpsfreq.py

结果效率提升了2倍

把 textFile 设定 3 个分区，仍然采用上面的命令

运行效率更高了，而且解决了最初的问题

参考资料：

https://www.jianshu.com/p/4d28edc599ea　　为Spark on Yarn配置WebUI日志记录

https://blog.csdn.net/zyj8170/article/details/58158966　　Spark on YARN配置日志Web UI

https://www.cnblogs.com/hexu105/p/8182472.html　　spark on yarn UI界面详解

spark调优篇-spark on yarn web UI的更多相关文章

spark调优篇-Spark ON Yarn 内存管理(汇总)
本文旨在解析 spark on Yarn 的内存管理,使得 spark 调优思路更加清晰内存相关参数 spark 是基于内存的计算,spark 调优大部分是针对内存的,了解 spark 内存参数有也 ...
【翻译】Spark 调优 (Tuning Spark) 中文版
由于Spark自己的调优guidance已经覆盖了很多很有价值的点,因此这里直接翻译一份过来.也作为一个积累. Spark 调优 (Tuning Spark) 由于大多数Spark计算任务是在内存中运 ...
spark调优篇-oom 优化(汇总)
spark 之所以需要调优,一是代码执行效率低,二是经常 OOM 内存溢出内存溢出无非两点: 1. Driver 内存不够 2. Executor 内存不够 Driver 内存不够无非两点: 1. ...
spark调优篇-数据倾斜(汇总)
数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...
spark 调优——基础篇
开发调优调优概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则.开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineag ...
【Spark篇】---Spark调优之代码调优，数据本地化调优，内存调优，SparkShuffle调优，Executor的堆外内存调优
一.前述 Spark中调优大致分为以下几种 ,代码调优,数据本地化,内存调优,SparkShuffle调优,调节Executor的堆外内存. 二.具体 1.代码调优 1.避免创建重复的RDD,尽 ...
Spark性能优化：开发调优篇
1.前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...

随机推荐

Django基础之中间件
1. 引入在之前学习的过程中,已经学会了给视图函数加装饰器来判断用户是否登录,把没有登录的用户请求跳转到登录页面. 我们通过给几个特定视图函数加装饰器实现了这个需求. 但是以后添加的视图函数可能也需 ...
G-LAB四月份作业-数据可视化问题探讨
G-LAB四月份作业-数据可视化问题探讨引子: 数据平台项目建设正在按照公司的计划开展执行中,作为平台建设项目参与者之一,感觉目前我们现有的MIS报表平台数据也不可谓不丰富,但是不论从提供给用户的数 ...
通过JDBC API访问数据库的基本步骤
1.获取要访问的数据库的JDBC驱动程序的类库文件,把它放到classpath中. 2.在程序中加载并注册JDBC驱动程序.例如,以下代码用于加载并注册MySQL驱动程序: //加载MySQL Dri ...
重读APUE(11)-信号安全的可重入函数
重入时间点进程捕捉到信号并对其进行处理时,进程正在执行的正常指令序列就会被信号处理程序临时中断,它首先执行该信号粗合理程序中的指令:如果从信号处理程序返回,则继续执行捕捉到信号时进程正在执行的正常指 ...
Linux 下基础命令
Linux:开源 Ubuntu Centos Deepin Debian Linux mint ... 1.省钱 2.省资源 Linux由unix演化而来 Linux:开源 Unix: 闭源 sola ...
MapReduce On Yarn的配置详解和日常维护
MapReduce On Yarn的配置详解和日常维护作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce运维概述 MapReduce on YARN的运维主要是 ...
js for (i=0;i<a.length;a[i++]=0) 中等于0怎么理解？
js的问题for (i=0;i<a.length;a[i++]=0) 中等于0怎么理解? 很奇怪的一个for循环竟然是将原来数组的数据全改为0
阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_14.RabbitMQ研究-与springboot整合-搭建环境
我们选择基于Spring-Rabbit去操作RabbitMQ https://github.com/spring-projects/spring-amqp 使用spring-boot-starter- ...
为TMenuItem增加指针Data属性
Delphi的有些组件中都包含.Data属性,比如TTreeNode,.Data属性可以认为是一个指针,可以指向任何类或者结构,方便后续操作. 但是TMenuItem没有.Data属性,下面介绍最简单 ...
React Native使用code-push实现热更新
这里就不记录了,下面的传送门介绍的通俗易懂,很详细,一步一步很容易实现成功. http://www.jianshu.com/p/f8689ccf0007