Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响

纯SQL的时间

对应时间表

th:first-child,.table-bordered tbody:first-child tr:first-child>td:first-child,.table-bordered tbody:first-child tr:first-child>th:first-child{-webkit-border-top-left-radius:4px;-moz-border-radius-topleft:4px;border-top-left-radius:4px;}
.table thead th{vertical-align:bottom;}
.table caption+thead tr:first-child th,.table caption+thead tr:first-child td,.table colgroup+thead tr:first-child th,.table colgroup+thead tr:first-child td,.table thead:first-child tr:first-child th,.table thead:first-child tr:first-child td{border-top:0;}
.table th{font-weight:bold;}
.table-condensed th,.table-condensed td{padding:4px 5px;}
.table-striped tbody>tr:nth-child(odd)>td,.table-striped tbody>tr:nth-child(odd)>th{background-color:#f9f9f9;}
-->

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Shuffle Read	Shuffle Write
24	collect at AreaTop3ProductSql.java:99	2019/01/30 10:26:49	0.6 s	200/200	867.8 KB
23	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:47	2 s	200/200	891.7 KB	869.4 KB
21	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:46	1 s	200/200	224.1 KB	733.2 KB
20	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:46	0.5 s	200/200	406.5 KB	224.3 KB
22	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.6 s	41/41		159.9 KB
19	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.2 s	1/1		4.0 KB
18	javaRDD at AreaTop3ProductSql.java:306	2019/01/30 10:26:45	0.8 s	41/41 (1 failed)		402.6 KB

以码云的com.ibeifeng.sparkproject.spark.product.AreaTop3ProductSql代码为参考,根据数据量和执行先后可大概发现算子和sql语句的对应关系

这里可以看到，代码只有5次sparksql执行，但是对应算子却有6个

从上节对AreaTop3ProductRDD的分析可以看到，sparkSQL也是以map-reduce作为一次计算的单位

id 22对应161行的createDataFrame，因为商品信息是在倒数第2次dataframe操作时才被join，并且此算子运行结束与否不影响id 20的运行

id 18对应189行的sql操作（第1阶段，reduce join之前要对此表map）

id 19对应128行的load操作（为什么18和19是这种顺序,仔细看时间长度就知道，城市数据和session访问数据不在同一数量级）

id 20对应189行的sql操作（第2阶段，reduce join之后还要map一次）

id 21对应214行的sql操作

id 24对应304行的sql操作（这里有些想不通，对应的sql语句要先group再select，那样应该先reduce再map，前面的sql操作也有join，难道说是因为join的表太小被map join了？）

与未深度优化的RDD程序相比，sparkSQL的运行效率低很多，并且还容易爆too many files错误

那么为什么sparkSQL还能被这么广泛使用呢？emmmm

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响的更多相关文章

Spark大型电商项目实战-及其改良之番外(1)-将spark前端页面效果高效拷贝至博客
Spark大型电商项目实战-及其改良这个系列的时间轴展示图一直在变....1-3篇是用图直接表示时间轴,用一段简陋的html代码表示时间表.第4篇开始才是用比较完整的前端效果,能移动.缩放时间轴,鼠标 ...
Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果
代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/artic ...
Spark大型电商项目实战-及其改良(4) 单独运行程序发现的问题
之前的运行结果比对发现,有1个函数的作用在2个job里面是相同的,但是对应的计算时间却差太远于是把4个job分开运行.虽说使用的数据不同,但是生成数据的生成器是相同的,数据排布差距不大,数据量也是相 ...
Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因
首先看没有map join的第2任务: 时间线如下接着是对应id的算子计算时间表 Stage Id Description Submitted Duration Tasks: Succeeded/T ...
16套java架构师，高并发，高可用，高性能，集群，大型分布式电商项目实战视频教程
16套Java架构师,集群,高可用,高可扩展,高性能,高并发,性能优化,设计模式,数据结构,虚拟机,微服务架构,日志分析,工作流,Jvm,Dubbo ,Spring boot,Spring cloud ...
Java 18套JAVA企业级大型项目实战分布式架构高并发高可用微服务电商项目实战架构
Java 开发环境:idea https://www.jianshu.com/p/7a824fea1ce7 从无到有构建大型电商微服务架构三个阶段SpringBoot+SpringCloud+Solr ...
SpringBoot电商项目实战 — ElasticSearch接入实现
如今在一些中大型网站中,搜索引擎已是必不可少的内容了.首先我们看看搜索引擎到底是什么呢?搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术.搜索引擎依托于 ...
SpringBoot电商项目实战 — 前后端分离后的优雅部署及Nginx部署实现
在如今的SpringBoot微服务项目中,前后端分离已成为业界标准使用方式,通过使用nginx等代理方式有效的进行解耦,并且前后端分离会为以后的大型分布式架构.弹性计算架构.微服务架构.多端化服务(多 ...
C# 大型电商项目性能优化（一）
经过几个月的忙碌,我厂最近的电商平台项目终于上线,期间遇到的问题以及解决方案,也可以拿来和大家多做交流了. 我厂的项目大多采用C#.net,使用逐渐发展并流行起来的EF(Entity Framewor ...

随机推荐

day 23 二十三、对象方法，类方法，封装，绑定方法
一.对象的特有名称空间 __init__方法会在实例化对象时被调用 1.会为实例化的对象形成空的名称空间 2.就是一个方法,可以被传参,在类名(实参)这种方式下调用并传参 __init__(self ...
chrome浏览器另存为/上传附件崩溃
x 前言系统中有一个需要上传导入的功能,此功能在谷歌浏览器上传总是直接崩溃, 但是在火狐浏览器中就是好的. 自己想到的解决方案谷歌浏览器版本号得问题?自己系统得问题? 谷歌浏览器卸载重新安装,还是 ...
[02-02 ]Java数据库链接范列
/* 01 连接池版本的数据库连接管理工具,适合于并发场合 */ package cn.tedu.jdbc.day02; import java.io.InputStream; import ja ...
4. Scala程序流程控制
4.1 程序流程控制说明在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句,顺序控制,粉质控制,循环控制温馨提示:Scala语言中控制结构和Java语言中的 ...
hydra用法
三.Syntax # hydra [[[-l LOGIN|-L FILE] [-p PASS|-P FILE]] | [-C FILE]] [-e ns] [-o FILE] [-t TASKS] [ ...
2018-2019-2 网络对抗技术 20165317 Exp3 免杀原理与实践
2018-2019-2 网络对抗技术 20165317 Exp3 免杀原理与实践实验内容任务一:正确使用msf编码器,msfvenom生成如jar之类的其他文件,veil-evasion,自己利用 ...
Linux升级python3之后yum不能正常使用解决方法一:重新配置yum源
[转]linux下yum安装及配置分步阅读公司使用的是linux搭建服务器,linux安装软件能够使用yum安装依赖包是一件非常简单而幸福的事情,所以这里简单介绍一下linux安装yum源流程和操 ...
iconfont在线链接使用方法（转）
原文:https://blog.csdn.net/jinkingliao/article/details/51353937 基础流程就不多赘述,直接到http://www.iconfont.cn/官网 ...
C与C++相互调用
C++编译器可以兼容并编译C语言,但优先使用C++编译方式,extern关键字让C++编译器使用C语言编译方式编译. extern "C" { // c 编译器编译的代码 } C+ ...
action,func简洁用法
new Action(() => { }).Invoke();new Action(() => { })(); new Func<int, int>(s => { ...

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响

Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响的更多相关文章

随机推荐

热门专题