Hive、Spark优化案例

一.Join原则

将条目少的表/子查询放在Join的左边。原因：在Join的reduce阶段，位于Join左边的表的内容会被加载进内存，条目少的表放在左边，可以减少发生内存溢出的几率。
小表关联大表：用MapJoin把小表全部加载到内存在map端Join，避免reducer处理。如：
```
select /*+ MapJoin(user)*/ l.session_id,u.username

from user u

join page_views l

on u.id  = l.user_id
```

二.控制map数量

　　例：input目录下有一个文件a，大小780M。分成7块（6*128+12M），产生七个map

　　减少map:合并小文件（对数据源来讲）

　　增加map:控制上一个job的reducer数

三.设置合理的reducer个数

　　reducer过多：生成很多小文件，作为下一个任务的输入

　　reducer过少：执行效率低

四.注意事项

只支持insert/load操作，无update/del
Hive 0.10之前版本无索引
不支持having
不支持where子句的子查询
join只支持等值关联
String类型没有长度限制

案例一.脚本运行太慢

　　原因：表太大，使用了count(distinct)来统计，造成了数据倾斜，大量数据在一个reduce进行运算

　　优化：使用group by 替换，将大表根据指标条件，拆分成8个表

案例二.关联顺序不同导致数据缺失

　　问题：测试报表时，发现周/月的累计用户小于同日期的7/30天数据相加的和

　　原因：关联顺序写错了

　　解决：累计用户 left 活跃用户 /新增用户（即使用数据较全的表在最左边进行左关联）或使用union all

　　说明：当某个应用当天不活跃时，在活跃表中该应用ID为空或者不存在，就无法关联累计用户所在的表。

案例三.Spark偶尔遇到Full GC，任务会执行很久

　　原因：默认Full GC 30min一次

　　解决：调整参数 spark.cleaner.periodGC.interval = 270min

案例四.Spark-submit 部分参数没设置，导致spark执行过慢

　　原因：核心字段内容为null，导致性能非常差

　　解决：设置核心字段参数默认值

Hive、Spark优化案例的更多相关文章

Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
Spark集群之yarn提交作业优化案例
Spark集群之yarn提交作业优化案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
常见的七种Hadoop和Spark项目案例
常见的七种Hadoop和Spark项目案例有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情.如比较火爆的Hadoop.Sp ...
Hive SQL优化思路
Hive的优化主要分为:配置优化.SQL语句优化.任务优化等方案.其中在开发过程中主要涉及到的可能是SQL优化这块. 优化的核心思想是: 减少数据量(例如分区.列剪裁) 避免数据倾斜(例如加参数.Ke ...
数据库优化案例——————某市中心医院HIS系统
记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也开始分享自己做的优化案例. 最近一直很忙,博客产出也少的 ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
mysql优化案例
MySQL优化案例 Mysql5.1大表分区效率测试 Mysql5.1大表分区效率测试MySQL | add at 2009-03-27 12:29:31 by PConline | view:60, ...
SQL 优化案例 1
create or replace procedure SP_GET_NEWEST_CAPTCHA( v_ACCOUNT_ID in VARCHAR2, --接收短信的手机号 v_Tail_num i ...

随机推荐

[.net core]10.请求静态文件, 自定义默认文件名
何谓静态文件,文件系统上的文件, css, javascript , image. html 这些都属于静态文件, .net core web app 默认是不处理文件请求的. 我们来做一个实验 ...
实现 RSA 算法之基础公式证明（第一章）（老物）
写这篇日志是拖了很久的事情,以前说要写些算法相关的文章给想学信息安全学(简称信安),密码学的同学提供些入门资料,毕竟这种知识教师上课也不会细讲太多(纯理论偏重),更不用说理解和应用了,说到RSA公钥( ...
ActiveMQ利用ajax收发消息
准备工作: 后台需要导包: activemq-all.jar activemq-web.jar jetty-all.jar 如果是maven项目: pom.xml <dependency> ...
纯CSS绘制3D立方体
本篇记录的是使用CSS3绘制3D立方体,并旋转起来. 我的思路: 1️⃣ 首先,用div元素画6个正方形摞在一起放在画布中间.为了区分,分别给每个div选择了不同的颜色,并且设置为半透明方便透视. 2 ...
查看 php 编译参数
/app/php/bin/php -i|grep configure 范例 4: [root@VM-001 ~]# /app/php/bin/php -i|grep configure Configu ...
centos7 安装部署zabbix客户端
1.下载安装zabbix-agent: # rpm -ivh http://repo.zabbix.com/zabbix/3.4/rhel/7/x86_64/zabbix-release-3.4-2. ...
ARM工作模式寻址
用户模式(User) usr 快速中断模式(FIQ) fiq 普通终端模式(IRQ) irq 保护模式(Supervisor) svc 数据访问终止模式(Abo ...
spring之bean的自动扫描
首先看一段applicationContext.xml中的自动扫描配置 <context:component-scan base-package="org.java.test" ...
Python深入：编码问题总结
转自:http://blog.csdn.net/gqtcgq/article/details/47068817 一:字符编码简介 1:ASCII 最初的计算机的使用 ...
[易学易懂系列|rustlang语言|零基础|快速入门|（11）|Structs结构体]
[易学易懂系列|rustlang语言|零基础|快速入门|(11)] 有意思的基础知识 Structs 我们今天来看看数据结构:structs. 简单来说,structs,就是用来封装相关数据的一种数据 ...

Hive、Spark优化案例

Hive、Spark优化案例的更多相关文章

随机推荐

热门专题