安装使用Cloudera Impala

安装与使用Cloudera Impala

Cloudera Impala提供快速的、交互式的SQL查询方式，直接基于Apache Hadoop存储在HDFS或HBase中的数据进行查询。除了使用与Apache Hive相同的统一存储平台外，Impala也使用了与Hive相同的元数据、SQL语法（Hive SQL）、ODBC驱动和用户接口（Cloudera Impala查询UI使用Hue）。这样就提供了一个用于实时或批量的查询的熟悉的、统一的平台。

Cloudera Impala是一个查询大数据的工具。Impala不会取代例如hive这样基于MapReduce的批处理框架。Hive和其他的基于MapReduce的批处理框架最适合用于长时间运行的批处理作业，如执行批量的抽取、转换、载入类的作业。

Impala 优点

Impala提供了

数据科学家、分析人员熟悉的SQL接口
交互式查询Apache Hadoop中的大数据
可同时进行大数据处理、分析的单一系统，用户可以避免为了分析进行昂贵的建模、ETL操作

Cloudera Impala与CDH如何协同工作

下图显示了在cloudera环境中Impala的定位

Impala由以下组件组成：

客户端 - 包括Hue、ODBC客户端、JDBC客户端、可与Impala交互的Impala Shell。这些接口通常用于执行查询或完成管理任务，例如连接到Impala
Hive Metastore - 存储可用于Impala数据的信息。例如，Impala通过metastore了解哪些数据库可用以及这些数据库的结构。当你使用Impala SQL语句，执行创建、删除修改schema对象、加载数据到表中、以及执行其他类似操作时，相关元数据的变化，通过Impala 1.2引入的单独的catalog服务，自动广播到所有Impala节点。
Cloudera Impala - 本程序运行于数据节点，用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间，这些节点作为workers，并行执行查询片段。
HBase and HDFS - 所查询数据的存储位置

Impala执行查询的处理过程如下：

用户程序通过ODBC或JDBC发送SQL给Impala，其中Impala提供了标准的查询接口。用户程序可能连接到集群中任意impalad进程，这一impalad进程作为这一查询的协调器。
Impala解析、分析这一查询，确定什么任务由集群中哪一impalad实例执行，执行计划最优。
Impalad实例会访问本地HDFS和HBase服务，获取数据。
每一个impalad都返回数据给协调器impalad，并由它发送结果给客户端。

Impala主要特性

Impala提供以下支持：

Hive查询语言（HiveQL）中最通用的SQL-92功能，包括SELECT、连接（join）、以及聚合函数
HDFS and HBase 存储，包括：
- HDFS文件格式:Text文件, SequenceFile, RCFile, Avro文件以及Parquet。
- 压缩编解码: Snappy, GZIP, Deflate, BZIP。
通用Hive接口，包括：
- JDBC驱动
- ODBC驱动
- Hue Beeswax和新Cloudera Impala Query UI
Impala命令行接口
Kerberos认证

安装使用Cloudera Impala的更多相关文章

Cloudera impala简单介绍及安装具体解释
一.Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用同样的统一存储平台,Impala也使 ...
cloudera impala编译安装配置启动
无论是采用GDB调试impala或者尝试修改impala源码,前提都是需要本地环境编译impala,这篇文章详细的分享一下impala编译方法以及编译过程遇到的棘手的问题: 前言: impala官方的 ...
安装Cloudera Impala
安装Cloudera Impala Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果. Impala作为你环境的插件,与其他组件的安装独 ...
impala记录-安装kudu和impala
1.配置/etc/yum.repos.d clouder-kudu.repo [cloudera-kudu]# Packages for Cloudera's Distribution for kud ...
CDH5上安装Hive,HBase,Impala,Spark等服务
Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...
Cloudera Impala需求
Cloudera Impala需求为了达到预期的效果,Impala依赖于软件.硬件的可用性,以及下面章节描述的配置. 继续阅读: 支持的操作系统支持的Hadoop发布 Hive Metastore ...
Cloudera Impala Guide
Impala Concepts and Architecture The following sections provide background information to help you b ...
初识 Cloudera Impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统尽管也提供了SQL语义,但因为Hive底层 ...
Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04）（一）
其实,基本思路跟如下差不多,我就不多详细说了,贴出主要图. 博主,我是直接借鉴下面这位博主,来进行安装的!(灰常感谢他们!) 在线和离线安装Cloudera CDH 5.6.0 Cloudera M ...

随机推荐

Spring boot quartz的相关资源
https://github.com/82253452/banner https://github.com/lvhao/schedule-job/tree/master/src/main/java/c ...
eCognition学习记录
作者:朱金灿来源:http://blog.csdn.net/clever101 昨天公司从外面请了人讲解eCognition的最新进展及项目二次开发应用情况.我做了大致下面记录: 1. eCogn ...
读取xml格式的字符串和上下文中的xml数据
1.读取xml格式的字符串假设有一段下面的xml格式的字符串: <xml> <return_code><![CDATA[SUCCESS]]></re ...
SQL server添加链接服务器脚本
---恢复内容开始--- exec sp_addlinkedserver 'ZZSJK','','SQLOLEDB','192.168.10.22' --链接服务器名称 ‘’ ip地址exec s ...
vue webpack添加jQuery
---恢复内容开始--- 在webpack.prod.conf.js文件中,找到plugins new webpack.ProvidePlugin({ $: "jquery", j ...
IE8支持function.bind()方法
这个 bind 方法仅仅有在 ie10 版本号的浏览器才得到原生支持,低于该版本号的浏览器下运行时会得到一个 undefined 的错误提示.于是仅仅好再次上网 google 解决方式,功夫不负有心人 ...
开源|LightGBM：三天内收获GitHub 1000+ 星
原创 2017-01-05 LightGBM 微软研究院AI头条 [导读]不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天 ...
WPF文字描边的解决方法（二）——支持文字竖排和字符间距调整
原文:WPF文字描边的解决方法(二)--支持文字竖排和字符间距调整自前天格式化文本效果出来后,今天又添加文本竖排和调整字符间距的功能.另外,由于上次仓促,没来得及做有些功能的设计时支持,这次也调整好 ...
简明Python3教程 2.序言
Python也许是为数不多的既简单又强大的编程语言.这有利于新手甚至于专家,更重要的是用它编程所带来的乐趣. 这本书的目的是帮助您了解这种神奇的语言,展示如何快速而轻松地完成事情——事实上”编程问题的 ...
C#中正则表达式使用介绍
摘要:本文给出了在C#下利用正则表达式实现字符串搜索功能的方法,通过对.NET框架下的正则表达式的研究及实例分析,总结了正则表达式的元字符.规则.选项等. 关键字:正则表达式.元字符.字符串.匹配 1 ...