前面几篇随笔记录了我安装环境的一些笔记，环境ok以后，自然要看看impala到底性能如何，拿他来hive做做对比：

前面hive章节中，已经建立了一张名叫chengyeliang的table，该表的结构为

该表内导入了100000条记录。

分别用impala-shell和hive对该表进行查询：

测试一

查询记录的数量：

Select count（*）from chengyeliang；

Hive：

耗时27.197秒

Impala

耗时0.33秒

测试二

查询符合过滤条件的记录：filter

select * from chengyeliang where foo=1314;

Hive：

耗时19.967秒

Impala

耗时0.31秒

测试三

查询某一列或者某几列的值：

select foo from chengyeliang limit 2000;（前2000条）

Hive：

耗时18.71秒

Impala

耗时0.47秒

扩大数据量---上亿条记录

表的结构为：

12个字段，共有100437725（1亿多）条记录。

测试一

查询记录的数量：

select count(*) from yeliang;

Hive：

耗时111.761秒

Impala

耗时26.31秒

测试二

查询符合过滤条件的记录：filter

select * from yeliang where id=123456;

Hive：

耗时110.581秒

Impala

耗时24.50秒

测试三

查询某一列或者某几列的值：

select id from yeliang sort by id limit 500;(前500条，排序)

Hive：

耗时515.711秒

Impala

耗时28.77秒

总结

　　大数据下的查询分析工具调研了一两个月的时间了，从最初的drill开始，到impala，从框架级，原理架构级到源码分析级，感触很多，由于apache 对drill广阔的前景规划目前drill的功能还不支持真正的dfs文件数据的查询，impala相对成熟一些，该文档前面详细叙述了搭建impala的环境，以及支持impala的各组件的安装，尤其是环境ok以后，对比hive的查询分析实验，实时性返回的感觉真的很棒。

　　Google总是引领着互联网技术公司的走向，尤其在大数据领域。前段时间调研过的apache hama就是google pregel的开源实现，而如今apache drill同样是对google产品big query背后的引擎Dremel的开源实现，Cloudera在这一步上略早于apache，使得他的CDH更加的在业界具有竞争力，前段时间业界新闻，hive的发源地facebook同样也推出了自己的大数据查询分析工具----Presto http://www.csdn.net/article/2013-06-13/2815749-Facebook-Presto

　　这说明着，数据越多的公司，对数据分析有强烈需求的公司，他们对高效查询分析的需求同样会更迫切。

展望

　　总的来说，能够亲眼看到超过hive查询速度20多倍的产品，还是很吃惊的。但是，调研的过程中，尤其源码分析的阶段，类SQL大数据查询分析的门槛还是相对很高的，个人感觉，需要团队对传统数据库领域或者分布式文件系统等相关方向的积累，如果有分布式数据库的经验作为对比学习则更好。

Hive与impala的对比测试实验的更多相关文章

使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
hive、impala集成ldap
1.概要 1.1 环境信息 hadoop:cdh5.10 os:centos6.7 user:root hive.impala已集成sentry 1.2 访问控制权限这里通过使用openldap来控 ...
Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注:从CDH集群里面拷贝出来下载地址:https://www.cloudera.com/downloads ...
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
学习Hive和Impala必看经典解析
Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...
第1节 HUE：14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合
3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置记得更改完core-site.xml之后一定要重启 ...

随机推荐

WEB学习 -相对定位、绝对定位、固定定位、z-index
相对定位相对定位,就是微调元素位置的.让元素相对自己原来的位置,进行位置调整. .不脱标,老家留坑,形影分离也就是说相对定位不脱标,真实位置是在老家,只不过影子出去了,可以到处飘. 3.相对定位用 ...
js-浅显基础-正则表达式集
今天进博客园,忽然发现我也是有粉丝的人啦!!!!!!!!谢谢谢谢关注(爱心爱心) 本来不想做这个笔记的,但是每次都百度我自己都烦死了,所以还是自己整理一下方便我后期使用: 独笑笑不如众笑笑,放轻松点 ...
在Eclipse中打开Hadoop工程
1. 安装虚拟机,我用的是VMware Workstation 12 Player 2. 在VM中安装Ubuntu,我用的镜像文件是ubuntu-15.10-desktop-amd64.iso 3. ...
【APIO2015】Bali Sculptures
题目描述印尼巴厘岛的公路上有许多的雕塑,我们来关注它的一条主干道. 在这条主干道上一共有 $N$ 座雕塑,为方便起见,我们把这些雕塑从 $1$ 到 $N$ 连续地进行标号,其中第 $i$ 座雕塑的年 ...
Deep learning with PyTorch: A 60 minute blitz _note(1) Tensors
Tensors 1. construst matrix 2. addition 3. slice from __future__ import print_function import torch ...
Go -- pprof协程监控
go中有pprof包来做代码的性能监控,在两个地方有包: net/http/pprof runtime/pprof 其实net/http/pprof中只是使用runtime/pprof包来进行封装了一 ...
G - Specialized Four-Digit Numbers(1.5.2)
Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit cid=1006#sta ...
hql 多对多查询
这种查询,hibernate 建议用 From Dealer s inner join fetch s.carSerieses cs 实现,注意这种实现只支持b.c,不支持b.cs. 如果要用b.c ...
react-redux的connect()方法
容器组件使用 connect() 方法连接 Redux 我们用 react-redux 提供的 connect() 方法将“笨拙”的 Counter 转化成容器组件.connect() 允许你从 Re ...
Spring集成JDBC
不同spring版本合成的方式,有时候不一样,需要查看帮助文档来看如何集成,帮助文档在spring发行包中. 1.导入spring的包(这里吧Spring-3.1.3 Release的所有jar包都导 ...

Hive与impala的对比测试实验

测试一

测试二

测试三

扩大数据量---上亿条记录

测试一

测试二

测试三

总结

展望

Hive与impala的对比测试实验的更多相关文章

随机推荐

热门专题