Hive与impala的对比测试实验
前面几篇随笔记录了我安装环境的一些笔记,环境ok以后,自然要看看impala到底性能如何,拿他来hive做做对比:
前面hive章节中,已经建立了一张名叫chengyeliang的table,该表的结构为

该表内导入了100000条记录。
分别用impala-shell和hive对该表进行查询:
测试一
查询记录的数量:
Select count(*)from chengyeliang;
Hive:

耗时27.197秒
Impala

耗时0.33秒
测试二
查询符合过滤条件的记录:filter
select * from chengyeliang where foo=1314;
Hive:

耗时19.967秒
Impala

耗时0.31秒
测试三
查询某一列或者某几列的值:
select foo from chengyeliang limit 2000;(前2000条)
Hive:

耗时18.71秒
Impala

耗时0.47秒
扩大数据量---上亿条记录
表的结构为:

12个字段,共有100437725(1亿多)条记录。
测试一
查询记录的数量:
select count(*) from yeliang;
Hive:

耗时111.761秒
Impala

耗时26.31秒
测试二
查询符合过滤条件的记录:filter
select * from yeliang where id=123456;
Hive:

耗时110.581秒
Impala

耗时24.50秒
测试三
查询某一列或者某几列的值:
select id from yeliang sort by id limit 500;(前500条,排序)
Hive:

耗时515.711秒
Impala

耗时28.77秒
总结
大数据下的查询分析工具调研了一两个月的时间了,从最初的drill开始,到impala,从框架级,原理架构级到源码分析级,感触很多,由于apache 对drill广阔的前景规划目前drill的功能还不支持真正的dfs文件数据的查询,impala相对成熟一些,该文档前面详细叙述了搭建impala的环境,以及支持impala的各组件的安装,尤其是环境ok以后,对比hive的查询分析实验,实时性返回的感觉真的很棒。
Google总是引领着互联网技术公司的走向,尤其在大数据领域。前段时间调研过的apache hama就是google pregel的开源实现,而如今apache drill同样是对google产品big query背后的引擎Dremel的开源实现,Cloudera在这一步上略早于apache,使得他的CDH更加的在业界具有竞争力,前段时间业界新闻,hive的发源地facebook同样也推出了自己的大数据查询分析工具----Presto http://www.csdn.net/article/2013-06-13/2815749-Facebook-Presto
这说明着,数据越多的公司,对数据分析有强烈需求的公司,他们对高效查询分析的需求同样会更迫切。
展望
总的来说,能够亲眼看到超过hive查询速度20多倍的产品,还是很吃惊的。但是,调研的过程中,尤其源码分析的阶段,类SQL大数据查询分析的门槛还是相对很高的,个人感觉,需要团队对传统数据库领域或者分布式文件系统等相关方向的积累,如果有分布式数据库的经验作为对比学习则更好。
Hive与impala的对比测试实验的更多相关文章
- 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
- 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
- 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
- hive、impala集成ldap
1.概要 1.1 环境信息 hadoop:cdh5.10 os:centos6.7 user:root hive.impala已集成sentry 1.2 访问控制权限 这里通过使用openldap来控 ...
- Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads ...
- SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
- CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
- 学习Hive和Impala必看经典解析
Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...
- 第1节 HUE:14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合
3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成 第一步:更改所有hadoop节点的core-site.xml配置 记得更改完core-site.xml之后一定要重启 ...
随机推荐
- WEB学习 -相对定位、绝对定位、固定定位、z-index
相对定位 相对定位,就是微调元素位置的.让元素相对自己原来的位置,进行位置调整. .不脱标,老家留坑,形影分离 也就是说相对定位不脱标,真实位置是在老家,只不过影子出去了,可以到处飘. 3.相对定位用 ...
- js-浅显基础-正则表达式集
今天进博客园,忽然发现我也是有粉丝的人啦!!!!!!!!谢谢谢谢关注(爱心爱心) 本来不想做这个笔记的,但是每次都百度我自己都烦死了,所以还是自己整理一下方便我后期使用: 独笑笑不如众笑笑,放轻松点 ...
- 在Eclipse中打开Hadoop工程
1. 安装虚拟机,我用的是VMware Workstation 12 Player 2. 在VM中安装Ubuntu,我用的镜像文件是ubuntu-15.10-desktop-amd64.iso 3. ...
- 【APIO2015】Bali Sculptures
题目描述 印尼巴厘岛的公路上有许多的雕塑,我们来关注它的一条主干道. 在这条主干道上一共有 $N$ 座雕塑,为方便起见,我们把这些雕塑从 $1$ 到 $N$ 连续地进行标号,其中第 $i$ 座雕塑的年 ...
- Deep learning with PyTorch: A 60 minute blitz _note(1) Tensors
Tensors 1. construst matrix 2. addition 3. slice from __future__ import print_function import torch ...
- Go -- pprof协程监控
go中有pprof包来做代码的性能监控,在两个地方有包: net/http/pprof runtime/pprof 其实net/http/pprof中只是使用runtime/pprof包来进行封装了一 ...
- G - Specialized Four-Digit Numbers(1.5.2)
Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit cid=1006#sta ...
- hql 多对多查询
这种查询,hibernate 建议用 From Dealer s inner join fetch s.carSerieses cs 实现,注意这种实现只支持b.c,不支持b.cs. 如果要用b.c ...
- react-redux的connect()方法
容器组件使用 connect() 方法连接 Redux 我们用 react-redux 提供的 connect() 方法将“笨拙”的 Counter 转化成容器组件.connect() 允许你从 Re ...
- Spring集成JDBC
不同spring版本合成的方式,有时候不一样,需要查看帮助文档来看如何集成,帮助文档在spring发行包中. 1.导入spring的包(这里吧Spring-3.1.3 Release的所有jar包都导 ...