hive 优化方法

https://blog.csdn.net/jiangsanfeng1111/article/details/52847044 -- 高级优化

使用各种函数
hive>show functions;//查看所有函数
hive>describe function explode;//查看函数的使用方法

https://www.csdn.net/article/2015-01-13/2823530

Hive中小表与大表关联(join)的性能分析
写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理。
“把重复关联键少的表放在join前面做关联可以提高join的效率。”

https://blog.csdn.net/wisgood/article/details/17739177

设置fetch task

fetch task 为执行hive时，不用执行MapReduce，如select * from emp；

set hive.fetch.task.conversion=more;

mapjoin

使用mapjoin将小表放入内存，在map端和大表逐一匹配，从而省去reduce。

set hive.auto.convert.join=true; 自动分配mapjoin

Hive数据倾斜（大表join大表）

https://blog.csdn.net/yeweiouyang/article/details/45665727

1 关联字段类型要一致
2 若左表关联字段无效（为空、字段长度为零、字段填充了非整数），
则在关联前将左表关联字段设置为一个随机数，再去关联右表，
这么做的目的是即使是左表的未关联记录，它的key也分布得十分均匀
from trackinfo a
left outer join pm_info b
on (
case when (a.ext_field7 is not null
and length(a.ext_field7) > 0
and a.ext_field7 rlike '^[0-9]+$')
then
cast(a.ext_field7 as bigint)
else
cast(ceiling(rand() * -65535) as bigint)
end = b.id
)

hive 优化方法的更多相关文章

大数据框架Hive优化方法
常规调优手段 Fetch抓取某些情况查询不必用MapReduce计算,比如select*,可以直接读取文件本地模式有时数据量比较小,hive可以通过本地模式在单台机器上处理所有任务,对于小数据集 ...
Hive 12、Hive优化
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1. ...
Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
【转】Hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解Hadoop的核心能力,是hive优化的根本.这是这一年来,项目组所有成员宝贵的经验总结. 长期观察hadoo ...
Hive性能分析和优化方法
Hive性能分析和优化方法 http://wenku.baidu.com/link?url=LVrnj-mD0OB69-eUH-0b2LGzc2SN76hjLVsGfCdYjV8ogyyN-BSja5 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...
大数据技术之_08_Hive学习_04_压缩和存储（Hive高级）+ 企业级调优（Hive优化）
第8章压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...
大数据开发实战：Hive优化实战1-数据倾斜及join无关的优化
Hive SQL的各种优化方法基本都和数据倾斜密切相关. Hive的优化分为join相关的优化和join无关的优化,从项目的实际来说,join相关的优化占了Hive优化的大部分内容,而join相关的 ...

随机推荐

C++重写new和delete，比想像中困难
关于C++内存管理这话题,永远都不过时.在我刚出道的时候,就已经在考虑怎么检测内存泄漏(https://www.cnblogs.com/coding-my-life/p/3985164.html).想 ...
Chrome添加Axure RP插件
之前一直用 Firefox 浏览器浏览原型文件,一直用不惯,而且用 Firefox 的唯一目的就是看原型.其他都是用 Chrome 浏览器,来回切换,各种麻烦,然后下定决心解决 Chrome 浏览器无 ...
es集群搭建
1.复制5份es,版本要相同,且各个节点上jdk版本也要相同,否则会报数据同步格式不一致 invalid internal transport message format. 2.配置elastic ...
supervisord的安装使用
由于生产环境使用的的tomcat,项目比较重要,所以要做进程守护,本来打算自己写脚本,但是效果不理想,想了下还是用supervisord了由于很久不用,所以写下来部署步骤第一:安装,安装的方法有y ...
MPC学习笔记1：基于状态空间模型的预测控制（2）
基于估计的无约束预测控制 1.引言基本上这两个部分都是在线性理论的框架下,利用状态空间法来建模.求解控制律.状态空间模型在理论分析上具有很强的优越性,但实际应用中能直接准确且经济地获取系统状态并不容 ...
2017-11-10 Fr Oct 消参
2017-11-04 Sa $ P(-3, 0) $ 在圆C $ (x-3)^2 + y^2 = 8^2 $ 内,动圆M与圆相切且过P点,求M点轨迹. 设切点 $ A(a, b) $,圆心 \(M(x ...
jquery通过AJAX从后台获取信息并显示在表格上的类
前一阵我写了:<jquery通过AJAX从后台获取信息并显示在表格上,并支持行选中.>现在,我把他们处理了一下,不需要每次写代码了: 具体代码如下: //获取数据并显示数据表格 funct ...
sql两表连接
一直以来认为exists比in效率高的说法是不准确的.如果查询的两个表大小相当,那么用in和exists差别不大.如果两个表中一个较小,一个是大表,则子查询表大的用exists,子查询表小的用in:例 ...
make,makefile,cmake“暴力编译法”的个人经验或理解。
通常我们在本地编译库(opecv.pcl)等我们喜欢使用make -jN (N代表线程数)这样可以加速编译过程, 但是,这不一定是“线程安全”的,因为当某个线程在编译时,经常其他线程编译依赖本线程的 ...
jar 接收utf-8字符乱码现象
1.今天用php去调用jar出现乱码现象需要对传递的中文字符进行编码之后再传递这里我用的是urlencode编码,让后java再解码就正常了这里贴一下代码: <?phpexec(" ...

hive 优化方法

hive 优化方法的更多相关文章

随机推荐

热门专题