【原创】大叔经验分享（20）spark job之间会停顿几分钟

今天遇到一个问题，spark应用中在一个循环里执行sql，每个sql都会向一张表写入数据，比如

insert overwrite table test_table partition(dt) select * from test_table_another;

除了执行sql没有其他逻辑，每个sql都会对应1个job，在spark web ui上看到job和job之间会停顿几分钟，并且非常有规律，任何两个job之间都会停顿，是不是很神奇？

答案揭晓：

spark在执行insert overwrite table partition的时候，分为两个部分，一个是执行select（读数据），一个是执行load partition（写数据），具体详见执行计划；

每个sql对应1个job，这个job执行的select部分（读数据），不包含load partition部分（写数据），因为spark为了兼容hive，直接使用hive的元数据库，所有ddl操作都是通过反射直接调用hive的代码（spark2.1依赖的是hive1.2），这个过程并不包含在spark job中，所以看起来job执行完之后停顿了几分钟才执行下个job，这里停顿的几分钟其实是在做load partition操作（写数据）；

这里还有另外一个问题，hive1.2在loadPartition删除文件时是串行操作，非常慢，这个问题在hive2时改为线程池解决，具体代码及问题解析详见：https://www.cnblogs.com/barneywill/p/10154922.html

【原创】大叔经验分享（20）spark job之间会停顿几分钟的更多相关文章

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost.. ...
【原创】大叔经验分享（23）spark sql插入表时的文件个数研究
spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行inser ...
【原创】大叔经验分享（19）spark on yarn提交任务之后执行进度总是10%
spark 2.1.1 系统中希望监控spark on yarn任务的执行进度,但是监控过程发现提交任务之后执行进度总是10%,直到执行成功或者失败,进度会突然变为100%,很神奇, 下面看spark ...
【原创】大叔经验分享（15）spark sql limit实现原理
之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计 ...
【原创】大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
【原创】大叔经验分享（13）spark运行报错WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.
本地运行spark报错 18/12/18 12:56:55 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting ...
【原创】大叔经验分享（12）如何程序化kill提交到spark thrift上的sql
spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hiv ...
【原创】大叔经验分享（5）oozie提交spark任务如何添加依赖
spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖: 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖: 这两种方式在oozie上 ...
【原创】大叔经验分享（39）spark cache unpersist级联操作
问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersi ...

随机推荐

SparkStreaming+Kafa+HBase
1. 总结一些概念: 安装zookeeper3.4.6 cp zoo_sample.cfg zoo.cfgvim zoo.cfg tickTime=2000initLimit=10syncLimit= ...
kubernetes-kubeadm自动生成的证书过期的解决方法
拉取kubernetes的源码: git clone https://github.com/kubernetes/kubernetes.git 切换版本: cd kubernetes &&am ...
jQUERY中的属性获取
jQuery获取Select选择的Text和Value:语法解释:1. $("#select_id").change(function(){//code...}); //为Se ...
Insert Into select 与 Select Into 哪个更快？
在平常数据库操作的时候,我们有时候会遇到表之间数据复制的情况,可能会用到INSERT INTO SELECT 或者 SELECT INTO : 那么二者语法上有什么区别?性能上又如何呢? 围绕着这两个 ...
洛谷P1188PASTE题解
题目这个题主要是一个考分类讨论的模拟题,做这个提的时候首先要脑子清醒,才可以清楚地写出怎么模拟来. $Code$ #include <iostream> #include <a ...
opencv 增强现实（一）：特征点检测
import cv2 as cv import numpy as np def draw_keypoints(img, keypoints): for kp in keypoints: x, y = ...
[ZJOI2016]旅行者
题目描述小Y来到了一个新的城市旅行.她发现了这个城市的布局是网格状的,也就是有n条从东到西的道路和m条从南到北的道路,这些道路两两相交形成n*m个路口 (i,j)(1<=i<=n,1&l ...
spring security oauth2 client_credentials模
spring security oauth2 client_credentials模 https://www.jianshu.com/p/1c3eea71410e 序本文主要简单介绍一下spring ...
Awesome CLI
请移步https://github.com/zhuxiaoxi/awesome-online-tools 欢迎一同维护这个列表 jq JSON工具 shellcheck 更好用的Shell语法检查 c ...
django-url的分发
1)url的分发: 1,首先在全局的url里面的路径中写好,你要分发的路径名. 2,并且在你要分发的路径下,创好新的url文件. 在分发的路径名里面,把全局url里面的代码,复制过来 3,最后在浏览器 ...

【原创】大叔经验分享（20）spark job之间会停顿几分钟

【原创】大叔经验分享（20）spark job之间会停顿几分钟的更多相关文章

随机推荐

热门专题