前面几篇随笔记录了我安装环境的一些笔记,环境ok以后,自然要看看impala到底性能如何,拿他来hive做做对比:

前面hive章节中,已经建立了一张名叫chengyeliang的table,该表的结构为

该表内导入了100000条记录。

分别用impala-shell和hive对该表进行查询:

测试一

查询记录的数量:

Select count(*)from chengyeliang

Hive

耗时27.197

Impala

耗时0.33

测试二

查询符合过滤条件的记录:filter

select * from chengyeliang where foo=1314;

Hive

耗时19.967

Impala

耗时0.31

测试三

查询某一列或者某几列的值:

select foo from chengyeliang limit 2000;(前2000条)

Hive

耗时18.71

Impala

耗时0.47


扩大数据量---上亿条记录

表的结构为:

12个字段,共有1004377251亿多)条记录。

测试一

查询记录的数量:

select count(*) from yeliang;

Hive

耗时111.761

Impala

耗时26.31

测试二

查询符合过滤条件的记录:filter

select * from yeliang where id=123456;

Hive

耗时110.581

Impala

耗时24.50

测试三

查询某一列或者某几列的值:

select id from yeliang sort by id limit 500;(前500条,排序)

Hive

耗时515.711

Impala

耗时28.77

总结

  大数据下的查询分析工具调研了一两个月的时间了,从最初的drill开始,到impala,从框架级,原理架构级到源码分析级,感触很多,由于apache 对drill广阔的前景规划目前drill的功能还不支持真正的dfs文件数据的查询,impala相对成熟一些,该文档前面详细叙述了搭建impala的环境,以及支持impala的各组件的安装,尤其是环境ok以后,对比hive的查询分析实验,实时性返回的感觉真的很棒。

  Google总是引领着互联网技术公司的走向,尤其在大数据领域。前段时间调研过的apache hama就是google pregel的开源实现,而如今apache drill同样是对google产品big query背后的引擎Dremel的开源实现,Cloudera在这一步上略早于apache,使得他的CDH更加的在业界具有竞争力,前段时间业界新闻,hive的发源地facebook同样也推出了自己的大数据查询分析工具----Presto http://www.csdn.net/article/2013-06-13/2815749-Facebook-Presto

  这说明着,数据越多的公司,对数据分析有强烈需求的公司,他们对高效查询分析的需求同样会更迫切。

展望

  总的来说,能够亲眼看到超过hive查询速度20多倍的产品,还是很吃惊的。但是,调研的过程中,尤其源码分析的阶段,类SQL大数据查询分析的门槛还是相对很高的,个人感觉,需要团队对传统数据库领域或者分布式文件系统等相关方向的积累,如果有分布式数据库的经验作为对比学习则更好。

Hive与impala的对比测试实验的更多相关文章

  1. 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作

    CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

  2. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)

    CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

  3. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作

    http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...

  4. hive、impala集成ldap

    1.概要 1.1 环境信息 hadoop:cdh5.10 os:centos6.7 user:root hive.impala已集成sentry 1.2 访问控制权限 这里通过使用openldap来控 ...

  5. Hive记录-Impala jdbc连接hive和kudu参考

    1.配置环境Eclipse和JDK 2.加载hive jar包或者impala jar包 备注:从CDH集群里面拷贝出来 下载地址:https://www.cloudera.com/downloads ...

  6. SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

    转自infoQ! 根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言.大部分项目都需要一些SQL 操作,甚至有一些只需要SQL. 本文涵盖了6个开源领导者: ...

  7. CDH5上安装Hive,HBase,Impala,Spark等服务

    Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...

  8. 学习Hive和Impala必看经典解析

    Hive和Impala作为数据查询工具,它们是怎样来查询数据的呢?与Impala和Hive进行交互,我们有哪些工具可以使用呢? 我们首先明确Hive和Impala分别提供了对应查询的接口: (1)命令 ...

  9. 第1节 HUE:14、15、16、hue与hdfs、yarn集群、hive、impala、mysql的整合

    3.hue与其他框架的集成 3.1.hue与hadoop的HDFS以及yarn集成 第一步:更改所有hadoop节点的core-site.xml配置 记得更改完core-site.xml之后一定要重启 ...

随机推荐

  1. dedecms--后台添加会员栏目(批量添加)

    最近在用dedecms二次开发会员功能,一开始做了一个会员添加,但是领导要求可以批量添加,最好是可以输入添加个数:这样我想添加几个就添加几个了 1:会员添加的htm页面 <html> &l ...

  2. HDU 3068 Manacher

    题目链接:http://hdu.hustoj.com/showproblem.php?pid=3068 今天学习一下马拉车算法,虽然mg讲过,但是没有系统去学. 算法学习:参考博客 马拉车模板题. # ...

  3. android-samples-mvp

    Model–view–presenter (MVP)介绍 mvp在wiki上的介绍为 Model  定义用户界面所需要被显示的数据模型,一个模型包含着相关的业务逻辑 View  View不应该处理业务 ...

  4. LightOj 1215 Finding LCM

    Discription LCM is an abbreviation used for Least Common Multiple in Mathematics. We say LCM (a, b, ...

  5. SqlServer 并发事务:死锁跟踪(三)6种跟踪死锁的方法总结 大神

    http://blog.csdn.net/kk185800961/article/details/42504857

  6. MySQL的1067错误

    1.打开my.ini文件,找到default-storage-engine=InnoDB这一行,把它改成default-storage-engine=MyISAM.*** my.ini必须为ansi格 ...

  7. iOS开发 NSArray技巧

    sh数组快速倒序 NSArray *arr = @[@"first",@"second"]; arr = arr.reverseObjectEnumerator ...

  8. 我是如何通过CSRF拿到Shell的

    织梦内容管理系统(DedeCms) 以简单.实用.开源而闻名,是国内最知名的PHP开源网站管理系统,也是使用用户最多的PHP类CMS系统,在经历多年的发展,目前的版本无论在功能,还是在易用性方面,都有 ...

  9. 数据迁移实战:基于Kettle的Mysql到DB2的数据迁移

    From:https://my.oschina.net/simpleton/blog/525675 一.什么是ETL ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数 ...

  10. 拒绝ssh远程暴力破解

    拒绝ssh远程暴力破解 简介 在网络技术日益发展的今天,网络上的安全问题日益严重.当你在公网上使用Linux服务器时,很有可能你的服务器正在遭受ssh暴力破解. 曾经有一次我的同伴将给客户提供监控服务 ...