前面几篇随笔记录了我安装环境的一些笔记，环境ok以后，自然要看看impala到底性能如何，拿他来hive做做对比：

前面hive章节中，已经建立了一张名叫chengyeliang的table，该表的结构为

该表内导入了100000条记录。

分别用impala-shell和hive对该表进行查询：

测试一

查询记录的数量：

Select count（*）from chengyeliang；

Hive：

耗时27.197秒

Impala

耗时0.33秒

测试二

查询符合过滤条件的记录：filter

select * from chengyeliang where foo=1314;

Hive：

耗时19.967秒

Impala

耗时0.31秒

测试三

查询某一列或者某几列的值：

select foo from chengyeliang limit 2000;（前2000条）

Hive：

耗时18.71秒

Impala

耗时0.47秒

扩大数据量---上亿条记录

表的结构为：

12个字段，共有100437725（1亿多）条记录。

测试一

查询记录的数量：

select count(*) from yeliang;

Hive：

耗时111.761秒

Impala

耗时26.31秒

测试二

查询符合过滤条件的记录：filter

select * from yeliang where id=123456;

Hive：

耗时110.581秒

Impala

耗时24.50秒

测试三

查询某一列或者某几列的值：

select id from yeliang sort by id limit 500;(前500条，排序)

Hive：

耗时515.711秒

Impala

耗时28.77秒

总结

　　大数据下的查询分析工具调研了一两个月的时间了，从最初的drill开始，到impala，从框架级，原理架构级到源码分析级，感触很多，由于apache 对drill广阔的前景规划目前drill的功能还不支持真正的dfs文件数据的查询，impala相对成熟一些，该文档前面详细叙述了搭建impala的环境，以及支持impala的各组件的安装，尤其是环境ok以后，对比hive的查询分析实验，实时性返回的感觉真的很棒。

　　Google总是引领着互联网技术公司的走向，尤其在大数据领域。前段时间调研过的apache hama就是google pregel的开源实现，而如今apache drill同样是对google产品big query背后的引擎Dremel的开源实现，Cloudera在这一步上略早于apache，使得他的CDH更加的在业界具有竞争力，前段时间业界新闻，hive的发源地facebook同样也推出了自己的大数据查询分析工具----Presto http://www.csdn.net/article/2013-06-13/2815749-Facebook-Presto

　　这说明着，数据越多的公司，对数据分析有强烈需求的公司，他们对高效查询分析的需求同样会更迫切。

展望

　　总的来说，能够亲眼看到超过hive查询速度20多倍的产品，还是很吃惊的。但是，调研的过程中，尤其源码分析的阶段，类SQL大数据查询分析的门槛还是相对很高的，个人感觉，需要团队对传统数据库领域或者分布式文件系统等相关方向的积累，如果有分布式数据库的经验作为对比学习则更好。

Hive与impala的对比测试实验的更多相关文章

使用Hive或Impala执行SQL语句，对存储在HBase中的数据操作
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
hive、impala集成ldap
1.概要 1.1 环境信息 hadoop:cdh5.10 os:centos6.7 user:root hive.impala已集成sentry 1.2 访问控制权限这里通过使用openldap来控 ...
Hive记录-Impala jdbc连接hive和kudu参考
1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包备注:从CDH集群里面拷贝出来下载地址:https://www.cloudera.com/downloads ...
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...
CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
学习Hive和Impala必看经典解析
Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...
第1节 HUE：14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合
3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成第一步:更改所有hadoop节点的core-site.xml配置记得更改完core-site.xml之后一定要重启 ...

随机推荐

AC日记——Sign on Fence Codeforces 484e
E. Sign on Fence time limit per test 4 seconds memory limit per test 256 megabytes input standard in ...
HTTP基础认证Basic Authentication
HTTP基础认证Basic Authentication Basic Authentication是一种HTTP访问控制方式,用于限制对网站资源的访问.这种方式不需要Cookie和Session,只需 ...
window 驱动开发
http://blog.csdn.net/chenyujing1234/article/category/1147469/5
【hibernate】Hibernate中save, saveOrUpdate, persist, merge, update 区别
Hibernate Save hibernate save()方法能够保存实体到数据库,正如方法名称save这个单词所表明的意思.我们能够在事务之外调用这个方法,这也是我不喜欢使用这个方法保存数据的原 ...
win7 32位配置apache+wsgi+django环境
1下载xampp,里面有apache,mysql,phpmyadmin, 2 下载wsgi,http://download.csdn.net/download/copter/9192361 将对应的模 ...
第七讲_图像描述（图说）Image Captioning
第七讲_图像描述(图说)Image Captioning 本章结构递归神经网络时序后向传播(BPTT) 朴素Vanilla-RNN 基本模型用sigmoid存在严重的梯度消失 LSTM长短时记忆 ...
overflow滚动条样式设置，ie和webkit内核
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
POJ 2480 Longge's problem 积性函数
题目来源:id=2480" style="color:rgb(106,57,6); text-decoration:none">POJ 2480 Longge's ...
ubuntu安装交叉编译工具链
一.sudo su 切换到root用户权限二.将arm-linux-gcc-4.3.2.tgz从windows拷贝到Linux /home/ttt/arm-linux-gcc-4.3.2.tgz ...
qt的下载链接
http://download.qt.io/archive/qt/5.8/5.8.0/ http://download.qt.io/archive/qt/ http://download.qt.io ...

Hive与impala的对比测试实验

测试一

测试二

测试三

扩大数据量---上亿条记录

测试一

测试二

测试三

总结

展望

Hive与impala的对比测试实验的更多相关文章

随机推荐

热门专题