【原创】大叔问题定位分享（19）spark task在executors上分布不均

最近提交一个spark应用之后发现执行非常慢，点开spark web ui之后发现卡在一个job的一个stage上，这个stage有100000个task，但是绝大部分task都分配到两个executor上，其他executor非常空闲，what happened？

查看spark task分配逻辑发现，有一个data locality即数据本地性的特性，详见 https://www.cnblogs.com/barneywill/p/10152497.html
即会按照locality级别的优先级来分配任务，数据本地性的优先级是：PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY，并且在优先级之间还有一个delay，

spark.locality.wait

进一步查看目前集群的部署结构，发现datanode和nodemanager并没有部署到一块，所以spark在分配NODE_LOCAL类型task的时候，只有两个executor满足条件，所以绝大部分任务都分配到这两个executor上，通过设置

spark.locality.wait=0

解决问题；

ps：存储和计算（即datanode和nodemanager）要么完全分开独立部署，要么完全部署在一起，不要一部分分开部署，一部分部署在一起，如果一定要这样，不要开启数据本地化特性；

【原创】大叔问题定位分享（19）spark task在executors上分布不均的更多相关文章

【原创】大叔问题定位分享（27）spark中rdd.cache
spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-2 ...
【原创】大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead
spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.ap ...
【原创】大叔问题定位分享（10）提交spark任务偶尔报错 org.apache.spark.SparkException: A master URL must be set in your configuration
spark 2.1.1 一问题重现问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName(&qu ...
【原创】大叔问题定位分享（7）Spark任务中Job进度卡住不动
Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeed ...
【原创】大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢
最近把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTable spark-sql> ...
【原创】大叔问题定位分享（18）beeline连接spark thrift有时会卡住
spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabas ...
【原创】大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException
spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc. ...
【原创】大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat
spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.h ...
【原创】大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的
问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org ...

随机推荐

基于 HTML5 的 WebGL 和 VR 技术的 3D 机房数据中心可视化
前言在 3D 机房数据中心可视化应用中,随着视频监控联网系统的不断普及和发展, 网络摄像机更多的应用于监控系统中,尤其是高清时代的来临,更加快了网络摄像机的发展和应用. 在监控摄像机数量的不断庞大的 ...
《App架构实践指南》
推荐书籍 <App 架构实践指南>
Asp.Net Core SignalR 与微信小程序交互笔记
什么是Asp.Net Core SignalR Asp.Net Core SignalR 是微软开发的一套基于Asp.Net Core的与Web进行实时交互的类库,它使我们的应用能够实时的把数据推送给 ...
js判断数组中有没有指定元素
list.findIndex(target => target.sel === 指定元素) ,如果找到返回下标,如果没有返回-1
SaxReader读取xml
package com.java1234.action; import java.io.File; import java.util.List; import org.dom4j.Document; ...
LODOP超文本简短问答和相关内容
html样式查看lodop内部解析的html信息,见http://www.c-lodop.com/faq/pp8.html分析差异点,因浏览器版本不同遵循的html标准不同,造成某些标签属性显示有差异 ...
springmvc解决中文乱码问题
1 第一种情况(get接收参数): 最近在用solr做一个搜索服务,发布给手机和pc等客户端调用,调用方式为: http://www.ganbo.search/search?q="手机& ...
修改host，上github
操作如下: 1.http://ping.chinaz.com/ 搜索github.com 海外ip,其实能找到的就两个;然后再搜gist.github.com 海外ip,也是两个. 192.30.25 ...
获取本地的jvm信息,进行图形化展示
package test1; import java.lang.management.CompilationMXBean; import java.lang.management.GarbageCol ...
shell之数组和关联数组
数组和关联数组 #!/bin/bash #定义数组1 array_var1=(1 2 3 4 5 6)# #定义数组2 array_var[0]="test1" array_var ...

【原创】大叔问题定位分享（19）spark task在executors上分布不均

【原创】大叔问题定位分享（19）spark task在executors上分布不均的更多相关文章

随机推荐

热门专题