5 WAYS TO MAKE YOUR HIVE QUERIES RUN FASTER

今天看了一篇[文章]

(http://zh.hortonworks.com/blog/5-ways-make-hive-queries-run-faster/),讲述了优化Hive的5个建议。其中每个建议细说的话，都可以写一篇或者多篇文章。下面简要记录下，后续慢慢补充：

1: USE TEZ

Tez 是一个开源的支持DAG作业的计算框架，它来源于MapReduce框架。可以通过设置

set hive.execution.engine=tez;

来启动Tez。

注意Hive2.1.0的版本有一个BUGHIVE-14121。使用Tez的时候需要

set hive.mapjoin.hybridgrace.hashtable=false

2: USE ORCFILE

ORCfile 使用了predicate push-down, compression等多种技术。Hive使用 ORCfile 作为表结构不仅可以节省存储空间，而且能够快速提高Hive Query的速度。

CREATE TABLE A_ORC (

	customerID int,

	name string,

	age int,

	address string

) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”);

3: USE VECTORIZATION

矢量查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理，而不是一行一行进行处理，这样能够显著提高执行速度。

可以通过设置

set hive.vectorized.execution.enabled = true;

set hive.vectorized.execution.reduce.enabled = true;

开启来。

具体请参考：

[1] https://cwiki.apache.org/confluence/display/Hive/Vectorized+Query+Execution

4: COST BASED QUERY OPTIMIZATION

COST BASED QUERY OPTIMIZATION可以优化hive的每次查询。如果想要使用CBO，需要开启一下选项:

set hive.cbo.enable=true;

set hive.compute.query.using.stats=true;

set hive.stats.fetch.column.stats=true;

set hive.stats.fetch.partition.stats=true;

如果我们想要使用CBO，需要通过HIVE的分析模式来收集表的不同统计数据，我们可以通过下面的命令来进行:

analyze table tweets compute statistics for columns;

这样子，HIVE就可以通过消耗评估和不同的执行计划来让我们的查询跑的更快。

更多的查询请看这里.

5: WRITE GOOD SQL

SQL是一种强有力的解释性语言，在执行sql查询的时候，可以通过不同的sql语法来实现。虽然查询的结果是相同的，但是不同的SQL语句会有不同的性能表现。

例如,创建一个点击事件表，表中的每条记录都代表一个事件。

CREATE TABLE clicks (

timestamp date, sessionID string, url string, source_ip string

) STORED as ORC tblproperties (“orc.compress” = “SNAPPY”);

如果想要查询出每个sessionID 最后访问的url，一种可能的执行方式是这样的：

SELECT clicks.* FROM clicks inner join

(select sessionID, max(timestamp) as max_ts from clicks

group by sessionID) latest

ON clicks.sessionID = latest.sessionID and

clicks.timestamp = latest.max_ts;

上面的查询语句通过一个子查询获取每个sessionID最后的访问时间，然后通过inner join

来过滤到其它的事件。下面是另一种方法:

SELECT * FROM

(SELECT *, RANK() over (partition by sessionID,

order by timestamp desc) as rank

FROM clicks) ranked_clicks

WHERE ranked_clicks.rank=1;

第二种方法通过HIVE的开窗函数避免了两个大表的join，这样就能提高查询效率。

其实还有很多其它的优化方式，例如LLAP，优化无止境。

HIVE的几种优化的更多相关文章

写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
Hive使用Calcite CBO优化流程及SQL优化实战
目录 Hive SQL执行流程 Hive debug简单介绍 Hive SQL执行流程 Hive 使用Calcite优化 Hive Calcite优化流程 Hive Calcite使用细则 Hive向 ...
Hive的三种安装方式（内嵌模式，本地模式远程模式）
一.安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景. 1.内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) ...
Unity 几种优化建议
转: http://user.qzone.qq.com/289422269/blog/1453815561?ptlang=2052 Unity 几种优化建议最简单的优化建议: 1.PC平台的话保持场 ...
Hive性能分析和优化方法
Hive性能分析和优化方法 http://wenku.baidu.com/link?url=LVrnj-mD0OB69-eUH-0b2LGzc2SN76hjLVsGfCdYjV8ogyyN-BSja5 ...
Hive的三种Join方式
Hive的三种Join方式 hive Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示. 参考链接:https://cwiki.apache.org/confluence/dis ...
2.Hive的几种常见的数据导入方式
好久没写Hive的那些事了,今天开始写点吧.今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1).从本地文件系统中导入数据到Hive表:(2).从HDFS上导入数据到Hive表:(3 ...
tensorflow的几种优化器
最近自己用CNN跑了下MINIST,准确率很低(迭代过程中),跑了几个epoch,我就直接stop了,感觉哪有问题,随即排查了下,同时查阅了网上其他人的blog,并没有发现什么问题之后copy了一篇 ...
详解Oracle数据货场中三种优化：分区、维度和物化视图
转 xiewmang 新浪博客本文主要介绍了Oracle数据货场中的三种优化:对分区的优化.维度优化和物化视图的优化,并给出了详细的优化代码,希望对您有所帮助. 我们在做数据库的项目时,对数据货场的 ...

随机推荐

【BZOJ 1503】[NOI2004]郁闷的出纳员
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 因为所有人工资同时递减. 所以可以设置一个变化值delta. 然后每个人的初始值为k 则把k-delta加入伸展树中. 会发现del ...
MySql5.7免安装版配置过程（ubuntu16.04)
MySql5.7免安装版配置过程(ubuntu16.04) 原创 2017年02月07日 16:58:24 标签: 1001 编辑删除一.安装环境: 操作系统:ubuntu16.04 数据库:my ...
Qt之QToolButton
简述 QToolButton类提供了用于命令或选项可以快速访问的按钮,通常可以用在QToolBar里面. 工具按钮和普通的命令按钮不同,通常不显示文本,而显示图标. 简述详细描述常用接口更多参考 ...
使用isolation forest进行dns网络流量异常检测
代码如下,测试发现,是否对输入数据进行归一化/标准化对于结果没有影响: import numpy as np from sklearn.ensemble import IsolationForest ...
h5调用手机前后摄像头，拍照
<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="pacam.aspx.cs& ...
Perceptron Learning Algorithm(python实现)
一.概论对于给定的n维(两种类型)数据(训练集),找出一个n-1维的面,能够"尽可能"地按照数据类型分开.通过这个面,我们可以通过这个面对测试数据进行预测. 例如对于二维数据,要 ...
UVa 202 Repeating Decimals【模拟】
题意:输入整数a和b,输出a/b的循环小数以及循环节的长度学习的这一篇 http://blog.csdn.net/mobius_strip/article/details/39870555 因为n% ...
Python3基础笔记--函数
一.函数定义: 函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可特性: 1)代码重用 2)保持一致性 3)可扩展性参考博客: Py西游攻关之 ...
[LNOI2014]LCA 树链剖分离线前缀和思维题
题目描述:给出一个n个节点的有根树(编号为0到n-1,根节点为0).一个点的深度定义为这个节点到根的距离+1. 设dep[i]表示点i的深度,LCA(i,j)表示i与j的最近公共祖先. 有q次询问,每 ...
python3之对本地TXT文件进行增加，删除，修改，查看功能。
由于是初学,代码如有不足,欢迎指出! 本博客记录我的编程之路,记录所学到的知识,分享所学心得! 这是我的一个作业. 首先分析要求: 创建一个TXT文件用于存储账号与密码实现对文件进行增加,删除,修改 ...

HIVE的几种优化