初识 Cloudera Impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统尽管也提供了SQL语义,但因为Hive底层运行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的高速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。
Impala长处
下图来自zdnet,描写叙述了Impala的一些长处:
从上图中看出基本的长处:SQL友好,比Hive快,支持多种存储引擎文件格式,接口丰富(ODBC,JDBC,Client),开源,部署easy。
Impala架构
Impala解决方式包括以下几大部分:
Clients:包含 Hue, ODBC clients, JDBC clients, and the Impala Shell
Hive Metastore:存放结构定义的元数据,当你创建、删除、改动表结构,或者载入数据到表中时,会自己主动的通知Impala节点。
Cloudera Impala:运行在数据节点上,分析、调度、运行查询任务,每一个Impala实例都能够接收、调度来自client的查询,这些查询分发到Impala节点进行查询,Impala节点相当于工作进程,运行查询,并将结果返回。
HBase and HDFS:存储供Impala查询的数据。
下图描写叙述了Impala的架构:
上图中,黄色部分为Impala组件。Impala使用了Hive的SQL接口(包括SELECT、 INSERT、Join等操作),但眼下仅仅实现了Hive的SQL语义的子集(比如尚未对UDF提供支持),表的元数据信息存储在Hive的 Metastore中。StateStore是Impala的一个子服务,用来监控集群中各个节点的健康状况,提供节点注冊、错误检測等功能。 Impala在每一个节点执行了一个后台服务Impalad,Impalad用来响应外部请求,并完毕实际的查询处理。Impalad主要包括Query
Planner、Query Coordinator和Query Exec Engine三个模块。QueryPalnner接收来自SQL APP和ODBC的查询,然后将查询转换为很多子查询,Query Coordinator将这些子查询分发到各个节点上,由各个节点上的Query Exec Engine负责子查询的运行,最后返回子查询的结果,这些中间结果经过聚集之后终于返回给用户。
Impala进程
从进程的角度看分为例如以下的三类进程:
The Impala Daemon
是Impala的核心进程,进程名叫做:impalad,执行在全部的数据节点上,能够读写数据,并接收client的查询请求,并行执行来自集群中其它节点的查询请求,将中间结果返回给调度节点。调用节点将结果返回给client。
The Impala Statestore
状态管理进程,定时检查The Impala Daemon的健康状况,协调各个执行impalad的实例之间的信息关系,Impala正是通过这些信息去定位查询请求所要的数据,进程名叫做statestored,在集群中仅仅须要启动一个这种进程,假设Impala节点因为物理原因、网络原因、软件原因或者其它原因而下线,Statestore会通知其它节点,避免查询任务分发到不可用的节点上。
The Impala Catalog Service
元数据管理服务,进程名叫做 catalogd,用于广播Impala中DDL、DML语句导致的元数据变化到全部Impala节点,因此新建表、新加载数据、等等操作对于随意节点提交的查询都可见(Impala 1.2之前,你必须在每一个节点上运行 REFRESH 或 INVALIDATE METADATA 语句以同步元数据的更新。如今仅仅须要在Hive中运行DDL、DML语句之后再运行这些语句)。
在搭建的CDH5环境上找到了这些进程:
| hostname | 进程名称 |
|---|---|
| h1.worker.com | statestored、catalogd |
| h2.worker.com | impalad |
| h3.worker.com | impalad |
| h4.worker.com | impalad |
[root@h1 ~]# hostname
h1.worker.com
[root@h1 ~]# ps -ef | grep impala
impala 14048 7910 0 04:13 ? 00:00:30 /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/impala/sbin-retail/catalogd --flagfile=/var/run/cloudera-scm-agent/process/57-impala-CATALOGSERVER/impala-conf/catalogserver_flags
impala 14070 7910 0 04:13 ? 00:03:01 /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/impala/sbin-retail/statestored --flagfile=/var/run/cloudera-scm-agent/process/61-impala-STATESTORE/impala-conf/state_store_flags
root 48029 31543 0 10:13 pts/0 00:00:00 grep impala
[root@h1 ~]#
[root@h2 ~]# hostname
h2.worker.com
[root@h2 ~]# ps -ef | grep impala
impala 13919 4405 0 04:13 ? 00:01:12 /opt/cloudera/parcels/CDH-5.0.2-1.cdh5.0.2.p0.13/lib/impala/sbin-retail/impalad --flagfile=/var/run/cloudera-scm-agent/process/58-impala-IMPALAD/impala-conf/impalad_flags
root 24212 18173 0 10:16 pts/0 00:00:00 grep impala
Impala快的原因
从网上找了一段Impala快的原因,主要有下面几方面的原因。
- Impala不须要把中间结果写入磁盘,省掉了大量的I/O开销。
- 省掉了MapReduce作业启动的开销。MapReduce启动task的速度非常慢(默认每一个心跳间隔是3秒钟),Impala直接通过对应的服务进程来进行作业调度,速度快了非常多。
- Impala全然抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做很多其它的查询优化,从而省掉不必要的shuffle、sort等开销。
- 通过使用LLVM来统一编译执行时代码,避免了为支持通用编译而带来的不必要开销。
- 用C++实现,做了非常多有针对性的硬件优化,比如使用SSE指令。
- 使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,降低了网络开销。
Impala源码
https://github.com/cloudera/impala
后面重点分析下Impala的源码。个人感觉和分布式数据库查询引擎的架构比較类型。
參考文档
Cloudera aims to bring real-time queries to Hadoop, big data
原创作品,转载请注明出处 http://blog.csdn.net/yangzhaohui168/article/details/34185579
初识 Cloudera Impala的更多相关文章
- Cloudera Impala Guide
Impala Concepts and Architecture The following sections provide background information to help you b ...
- Cloudera impala简单介绍及安装具体解释
一.Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用同样的统一存储平台,Impala也使 ...
- cloudera impala编译 安装 配置 启动
无论是采用GDB调试impala或者尝试修改impala源码,前提都是需要本地环境编译impala,这篇文章详细的分享一下impala编译方法以及编译过程遇到的棘手的问题: 前言: impala官方的 ...
- Cloudera Impala需求
Cloudera Impala需求 为了达到预期的效果,Impala依赖于软件.硬件的可用性,以及下面章节描述的配置. 继续阅读: 支持的操作系统 支持的Hadoop发布 Hive Metastore ...
- 安装Cloudera Impala
安装Cloudera Impala Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果. Impala作为你环境的插件,与其他组件的安装独 ...
- 安装使用Cloudera Impala
安装与使用Cloudera Impala Cloudera Impala提供快速的.交互式的SQL查询方式,直接基于Apache Hadoop存储在HDFS或HBase中的数据进行查询.除了使用与Ap ...
- Cloudera Impala 之 ORDER BY without LIMIT currently not supported
ERROR: NotImplementedException: ORDER BY without LIMIT currently not supported impala中order by 需要l ...
- Cloudera Impala源码分析: SimpleScheduler调度策略详解包括作用、接口及实现等
问题导读:1.Scheduler任务中Distributed Plan.Scan Range是什么?2.Scheduler基本接口有哪些?3.QuerySchedule这个类如何理解?4.Simple ...
- Impala 安装笔记1一Cloudera CDH4.3.0安装
Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库 ...
随机推荐
- Windows Phone开发(33):路径之其它Geometry
原文:Windows Phone开发(33):路径之其它Geometry 上一节中,我们把最复杂的PathGeometry给干了,生剩下几个家伙就好办事了.一起来见见他们的真面目吧. 一.LineGe ...
- CheckBoxList的操作查询是否被选中设置或者得到
在项目中我们可能会经常遇到一收集多选信息的情况,比如做注册的时候要收集个人爱好,那时候大家第一个想到的肯定是CheckBoxList.那我们怎么来获取到CheckBoxList的值并且存入数据库呢?? ...
- 9patch(.9)怎么去掉自己画上的黑点/黑线
在自己制作.9.png图片的时候,制作之后所制作的图片上面会显示出制作的痕迹,也即是图片区域上会显示小黑点和黑线.那么为了真正的利用.9.png图片的使用效果.这些瑕疵当然是不能出现的了.因此,要想办 ...
- 安装好.net framework后运行慢
表现 系统有时运行慢,尤其是.net程序运行得相当慢 mscorsvw.exe与mscorsvw.exe *32两个进程挂在任务管理器里时不时地占着CPU 解决 运行以下两条命令,加快这两进程的运行, ...
- Codeforces 107B Basketball Team 简单概率
题目链接:点击打开链接 题意: 给定n m h 表示有m个部门,有个人如今在部门h 以下m个数字表示每一个部门的人数.(包含他自己) 在这些人中随机挑选n个人,问挑出的人中存在和这个人同部门的概率是多 ...
- jenkins配置.net mvc网站
jenkins配置.net mvc网站 上一篇使用jenkins配置.net mvc网站进行持续集成一只是简单介绍了jenkins构建站点到本地服务器,这一篇,就来讲解如何部署站点到指定的服务器上面. ...
- 用数据说话,外贸产品选择(中篇)-google趋势分析法
在上篇文章<用数据说话,贸B2C产品选择(上篇)-热门搜索法>中我们能搜索出来几种产品了,那我们就拿上次搜索出来的热门产品来做一个趋势分析.我们经过几个站点挑出了几种热卖产品Wedding ...
- C/C++大型项目错误管理
在C/C++大型项目中,错误管理在项目中起着举足轻重的作用,以我自己的项目经验以及观摩其它项目,错误管理对项目框架以及开发效率有着非常大的影响.对于错误管理的认识大致分为三类: 刚刚開始敲代码的新手, ...
- http与https与socket tcp/IP与UDP 协议等
网络由下往上分为: 物理层-- 数据链路层-- 网络层-- IP协议 传输层-- ...
- Mongodb入门——安装与配置
作者:zhanhailiang 日期:2014-11-07 1. 安装mongodb: [root@~/wade/nodejs/nodeclub]# yum search mongodb [root@ ...