Hive索引功能测试

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处

从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得

一.测试数据准备

1.新建一个gen-data.sh脚本，内容如下

#! /bin/bash

#generating 1.7G raw data.

i=0

while [ $i -ne 5000000 ]

do

        echo "$i        A decade ago, many were predicting that Cooke, a New York City prodigy, would become a basketball shoe pitchman and would flaunt his wares and skills at All-Star weekends like the recent aerial show in Orlando, Fla. There was a time, however fleeting, when he was more heralded, or perhaps merely hyped, than any other high school player in America."

        i=$(($i+1))

done

2.生成文件

执行如上脚本: sh gen-data.sh >dual.txt,大约几分钟后生成完毕.

二.Hive建立表和索引

1.建表，注意和上面生成的数据是一致的，id和name以制表符隔开进行映射

create table table01(id int,name string) row format delimited fields terminated by '\t';

2.加载数据到表中

load data local inpath '~/testData/hive/dataScripts/dual.txt' overwrite into table table01; (用时Time taken: 160.787 seconds)

3.创建table02,数据来自于table01

create table table02 as select id ,name as text from table01; (Time taken: 154.463 seconds)

4.查询测试

select * from table02 where id=500000; (Time taken: 30.463 seconds, Fetched: 1 row(s))

此时dfs -ls /user/hive/warehouse/,会看到有table01和table02对应的数据文件夹生成

5.利用hive的CompactIndexHandler为id字段自动创建索引

create index table02_index on table table02(id) as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild;

alter index table02_index on table02 rebuild; (Time taken: 112.451 seconds)

注意上面这句是必要的，因为deferred rebuild以后，索引文件内容初始化是empty的，而alter index能够帮助重建index structure.

6.此时会看到索引表的生成，查看索引表内容

hive> select * from default__table02_table02_index__ limit 3;
OK
9    hdfs://littleNameservice/user/hive/warehouse/table02/000000_0    [3168]
36    hdfs://littleNameservice/user/hive/warehouse/table02/000000_0    [12698]
63    hdfs://littleNameservice/user/hive/warehouse/table02/000000_0    [22229]

这里可以看到索引表分为三列，分别是索引列的枚举值，每个值对应的数据文件位置，以及在这个文件位置中的偏移量。通过这种方式，

可以减少查询的数据量（偏移量可以告诉你从哪个位置开始找，自然只需要定位到相应的block），起到减少资源消耗的作用.

7.再次查询测试

select * from table02 where id=500000; (Time taken: 29.226 seconds, Fetched: 1 row(s))

对比刚开始的30.463秒,基本没变化。所以继续研究

8.需要进行索引手动裁剪，如下

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
Insert overwrite directory "/tmp/table02_index_data" select `_bucketname`, `_offsets` from default__table02_table02_index__ where id =500000;
Set hive.index.compact.file=/tmp/table02_index_data;
Set hive.optimize.index.filter=false;
Set hive.input.format=org.apache.hadoop.hive.ql.index.compact.HiveCompactIndexInputFormat;

简单解释下上面命令的意思就是对自己需要索引的查询比如id = 500000,手动从已有的索引表default__table02_table02_index__ 中裁剪出来插入临时的tmp目录，然后设置索引的文件

指向和忽略自动索引

9.最终查询测试

select * from table02 where id =500000; (Time taken: 17.259 seconds, Fetched: 1 row(s))

好，这次变成17秒了，证明索引生效了.但是感觉差强人意啊.

个人总结:从官方的wiki，jira以及自己的测试来看，Hive的索引很不好用，它并不是传统的的B树索引，而是冗余了一个lookup的索引表，把需要索引的表简单划分了range和偏移量，

这些信息被储存在索引表里面进行查询,而且使用的时候不能直接用，还要根据条件进行裁剪才会真正生效。个人感觉这就是个半成品,官方也宣称这块儿功能需要加强.

参考资料:

https://cwiki.apache.org/confluence/display/Hive/IndexDev

https://issues.apache.org/jira/browse/HIVE-417

http://lxw1234.com/archives/2015/05/207.htm

http://blog.csdn.net/liwei_1988/article/details/7319030

Hive索引功能测试的更多相关文章

Hive索引
1. Hive索引概述 Hive的索引目的是提高Hive表指定列的查询速度. 没有索引时.类似'WHERE tab1.col1 = 10' 的查询.Hive会载入整张表或分区.然后处理全 ...
HIVE—索引、分区和分桶的区别
一.索引简介 Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapRed ...
hive索引表
create table index_tmp(id int,name string,dt string) row format delimited fields terminated by ',' s ...
hive 索引
hive 有限的支持索引,不支持主键外键,可以对表添加索引,也可以为某个分区添加索引.维护索引也要额外的存储空间和计算资源. 创建索引需要指定索引处理器如 as 'org.apache.hadoop ...
【Hive学习之六】Hive Lateral View &视图&索引
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive的索引及案例（八）
hive里的索引是什么? 索引是标准的数据库技术,hive 0.7版本之后支持索引.Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某 ...
Hive 学习之路（六）—— Hive 视图和索引
一.视图 1.1 简介 Hive 中的视图和RDBMS中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条SELECT语句的结果集.视图是纯粹的逻辑对象,没有关联的存储(Hive 3.0.0引入的 ...
Hive 系列（六）—— Hive 视图和索引
一.视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集.视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0 ...

随机推荐

PHP源码分析-变量
1. 变量的三要素变量名称,变量类型,变量值那么在PHP用户态下变量类型都有哪些,如下: // Zend/zend.h #define IS_NULL 0 #define IS_LONG 1 #de ...
Android消息传递之基于RxJava实现一个EventBus - RxBus
前言: 上篇文章学习了Android事件总线管理开源框架EventBus,EventBus的出现大大降低了开发成本以及开发难度,今天我们就利用目前大红大紫的RxJava来实现一下类似EventBus事 ...
如何利用pt-online-schema-change进行MySQL表的主键变更
业务运行一段时间,发现原来的主键设置并不合理,这个时候,想变更主键.这种需求在实际生产中还是蛮多的. 下面,看看pt-online-schema-change解决这类问题的处理方式. 首先,创建一张测 ...
消息队列性能对比——ActiveMQ、RabbitMQ与ZeroMQ（译文）
Dissecting Message Queues 概述: 我花了一些时间解剖各种库执行分布式消息.在这个分析中,我看了几个不同的方面,包括API特性,易于部署和维护,以及性能质量..消息队列已经被分 ...
在centos7上安装ClamAV杀毒，并杀毒（centos随机英文10字母）成功
前言上传文件的时候发现总是失败,查看top发现有个进程一直cpu占用80%以上,而且名称还是随机数.kill之后,一会儿又重新生成了.突然发现居然没有在服务端杀毒的经历.在此处补齐. 安装clama ...
代码的坏味道（21）——中间人(Middle Man)
坏味道--中间人(Middle Man) 特征如果一个类的作用仅仅是指向另一个类的委托,为什么要存在呢? 问题原因对象的基本特征之一就是封装:对外部世界隐藏其内部细节.封装往往伴随委托.但是人们可 ...
linux系统oracle-ora12505问题解决方案一
说明:(1)Linux版本 Linux version 2.6.32.12-0.7-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-bran ...
Linux基础介绍【第二篇】
远程连接Linux的原理 SHH远程连接介绍当前,在几乎所有的互联网企业环境中,最常用的Linux提供远程连接服务的工具就是SSH软件,SSH分为SSH客户端和SSH服务端两部分.其中,SSH服务端 ...
Android（2）—Mono For Android App版本自动更新
0.前言公司Android查询的项目已经开始,整体采用Java后台+App前台来实现,由于项目小,App这块就我一个人开发,首先需要研究的是:Android版本的更新升级问题:本人经过近一周的学习整 ...
如玫瑰一般的PHP与C#混合编程
故事背景是这样的,有一套项目,服务器端是用C#写的,为了完成某种事情,它需要使用到一个组件,这个组件很小但很重要,很不巧的是,这个这个组件是用PHP语言写的,如果为了使用这个组件而专门搭建一个PHP的 ...

Hive索引功能测试

Hive索引功能测试的更多相关文章

随机推荐

热门专题