Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因

首先看没有map join的第2任务:

时间线如下

接着是对应id的算子计算时间表

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Shuffle Read	Shuffle Write
13	collect at AreaTop3ProductRDD.java:353 +details	2019/01/29 11:19:02	59 ms	41/41	235.3 KB
12	mapToPair at AreaTop3ProductRDD.java:259 +details	2019/01/29 11:19:02	0.1 s	41/41	383.2 KB	235.3 KB
11	mapToPair at AreaTop3ProductRDD.java:251 +details	2019/01/29 11:19:02	95 ms	41/41	99.3 KB	246.2 KB
9	mapToPair at AreaTop3ProductRDD.java:230 +details	2019/01/29 11:19:01	0.5 s	41/41	767.7 KB	99.3 KB
8	mapToPair at AreaTop3ProductRDD.java:128 +details	2019/01/29 11:19:01	0.5 s	41/41		752.0 KB
7	mapToPair at AreaTop3ProductRDD.java:164 +details	2019/01/29 11:19:01	0.3 s	1/1		15.7 KB
10	mapToPair at AreaTop3ProductRDD.java:248 +details	2019/01/29 11:19:01	0.5 s	41/41		137.0 KB

城市区域表(对应id 10)和商品列表(对应id 7)的数据量比较小，但在集群中的运行时间还是比较长的

不过因为是并行化运行，点击记录(对应id 8)的处理很快就完毕

并且id 9(把数据转换为key是区域+商品id，value是城市信息的组合)的运行时间也不长

在程序只是简单转换为RDD的情况下也能发挥优化效果

相比上述程序，speedUp版程序执行效率没有多大提升。

时间线如下

时间表如下

Stage Id	Description	Submitted	Duration	Tasks: Succeeded/Total	Shuffle Read	Shuffle Write
17	collect at AreaTop3ProductRDDSpeedUp.java:371 +details	2019/01/29 11:19:03	53 ms	41/41	246.7 KB
16	mapToPair at AreaTop3ProductRDDSpeedUp.java:284 +details	2019/01/29 11:19:03	0.1 s	41/41	475.6 KB	246.7 KB
15	mapToPair at AreaTop3ProductRDDSpeedUp.java:218 +details	2019/01/29 11:19:02	0.6 s	41/41		475.9 KB

把城市区域表和商品列表转换为broadcast大变量，给id 15的算子进行map join的做法反而增加了driver的计算量，并且由于被统一到一个算子中运算，丢失了并行化的优势

像12月那次的调试，还出现了优化后运行时间倒挂的情况，就是id 15的运行时间拖慢了(map join用的HashMap，不知道是不是这个原因)

算上job id 2的运行时间(才28ms...)speedUp的运行时间比不带speedUp的短了20%

另外由于只有3台,数据倾斜造成的运算拖慢很难表现出来，此处就不演示均衡数据优化了

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因的更多相关文章

Spark大型电商项目实战-及其改良之番外(1)-将spark前端页面效果高效拷贝至博客
Spark大型电商项目实战-及其改良这个系列的时间轴展示图一直在变....1-3篇是用图直接表示时间轴,用一段简陋的html代码表示时间表.第4篇开始才是用比较完整的前端效果,能移动.缩放时间轴,鼠标 ...
Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果
代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/artic ...
Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响
之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响纯SQL的时间对应时间表 th:first-child,.table-bordered tbody:first-child ...
Spark大型电商项目实战-及其改良(4) 单独运行程序发现的问题
之前的运行结果比对发现,有1个函数的作用在2个job里面是相同的,但是对应的计算时间却差太远于是把4个job分开运行.虽说使用的数据不同,但是生成数据的生成器是相同的,数据排布差距不大,数据量也是相 ...
16套java架构师，高并发，高可用，高性能，集群，大型分布式电商项目实战视频教程
16套Java架构师,集群,高可用,高可扩展,高性能,高并发,性能优化,设计模式,数据结构,虚拟机,微服务架构,日志分析,工作流,Jvm,Dubbo ,Spring boot,Spring cloud ...
Java 18套JAVA企业级大型项目实战分布式架构高并发高可用微服务电商项目实战架构
Java 开发环境:idea https://www.jianshu.com/p/7a824fea1ce7 从无到有构建大型电商微服务架构三个阶段SpringBoot+SpringCloud+Solr ...
SpringBoot电商项目实战 — ElasticSearch接入实现
如今在一些中大型网站中,搜索引擎已是必不可少的内容了.首先我们看看搜索引擎到底是什么呢?搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术.搜索引擎依托于 ...
SpringBoot电商项目实战 — 前后端分离后的优雅部署及Nginx部署实现
在如今的SpringBoot微服务项目中,前后端分离已成为业界标准使用方式,通过使用nginx等代理方式有效的进行解耦,并且前后端分离会为以后的大型分布式架构.弹性计算架构.微服务架构.多端化服务(多 ...
C# 大型电商项目性能优化（一）
经过几个月的忙碌,我厂最近的电商平台项目终于上线,期间遇到的问题以及解决方案,也可以拿来和大家多做交流了. 我厂的项目大多采用C#.net,使用逐渐发展并流行起来的EF(Entity Framewor ...

随机推荐

SQL 序列-DML-DML-数据类型-用户管理、权限-事务-视图
--DML--insert关键字--作用:往表中插入一条(多条)记录 --元祖(tuple)值式的插入(一次插入一条记录)--语法1:insert into tablename(column1,col ...
干货|爱奇艺CDN巡检系统技术解析
小结: 1. 中心处理系统 /1/将定制后的巡检任务拆分,通过配置与任务分发系统.CMDB*( configuration management database)将派发到边缘拨测系统/2/处理边缘拨 ...
20175303 2018-2019-2 《Java程序设计》第7周学习总结
20175303 2018-2019-2 <Java程序设计>第7周学习总结教材学习内容总结 1.String类: Java专门提供了用来处理字符序列的String类构造String对 ...
栈->栈的基本定义
定义: 栈是限定仅在表尾进行插入或删除操作的线性表.因此,对栈来说,表尾端有特殊含义,称为栈顶,相应地,表头端称为栈底.不含元素的空表成为空栈. 示意图: 顺序栈的表示和实现可以在初始化时分配一块连 ...
Python的基本语法2
一.运算符 # 算术运算符, +, -, *, /, //, %, **, 注意//为整除 # 赋值运算符, =, +=, -=, *=, /=, //= ,%=, **= # 比较运算符, ==, ...
转 linux安装jdk环境（多种方式）
linux系统通用安装通过tar.gz压缩包安装此方法适用于绝大部分的linux系统 1.先下载tar.gz的压缩包,这里使用官网下载. 进入: http://www.oracle.com/techn ...
springboot+spring security +oauth2.0 demo搭建（password模式）（认证授权端与资源服务端分离的形式）
项目security_simple(认证授权项目) 1.新建springboot项目这儿选择springboot版本我选择的是2.0.6 点击finish后完成项目的创建 2.引入maven依赖 ...
2016(5)系统设计，web应用
试题五(共25分) 阅读以下关于Web应用的叙述,在答题纸上回答问题1至问题3. 某软件企业拟开发一套基于Web的云平台配置管理与监控系统,该系统按租户视图.系统管理视图以及业务视图划分为多个相应的W ...
SharePoint 2010 查看dll的PublicKeyToken值方法
在做asp.net开发过程中,偶尔对有些dll,进行强制签名,那么在注册dll到gac的时候,就需要知道dll的PublicKeyToken值,如何通过简单的方法,来获得这个值呢,下面是一个很好又实用 ...
oo第二次博客总结
不知道怎么说好呢,自己对自己也很没有信心的,希望自己能做出些许改变

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因

Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因的更多相关文章

随机推荐

热门专题