安装与使用Cloudera Impala

Cloudera Impala提供快速的、交互式的SQL查询方式,直接基于Apache Hadoop存储在HDFS或HBase中的数据进行查询。除了使用与Apache Hive相同的统一存储平台外,Impala也使用了与Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动和用户接口(Cloudera Impala查询UI使用Hue)。这样就提供了一个用于实时或批量的查询的熟悉的、统一的平台。

Cloudera Impala是一个查询大数据的工具。Impala不会取代例如hive这样基于MapReduce的批处理框架。Hive和其他的基于MapReduce的批处理框架最适合用于长时间运行的批处理作业,如执行批量的抽取、转换、载入类的作业。

Impala 优点

Impala提供了

  • 数据科学家、分析人员熟悉的SQL接口
  • 交互式查询Apache Hadoop中的大数据
  • 可同时进行大数据处理、分析的单一系统,用户可以避免为了分析进行昂贵的建模、ETL操作

Cloudera Impala与CDH如何协同工作

下图显示了在cloudera环境中Impala的定位

Impala由以下组件组成:

  • 客户端 - 包括Hue、ODBC客户端、JDBC客户端、可与Impala交互的Impala Shell。这些接口通常用于执行查询或完成管理任务,例如连接到Impala
  • Hive Metastore - 存储可用于Impala数据的信息。例如,Impala通过metastore了解哪些数据库可用以及这些数据库的结构。当你使用Impala SQL语句,执行创建、删除修改schema对象、加载数据到表中、以及执行其他类似操作时,相关元数据的变化,通过Impala 1.2引入的单独的catalog服务,自动广播到所有Impala节点。
  • Cloudera Impala - 本程序运行于数据节点,用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间,这些节点作为workers,并行执行查询片段。
  • HBase and HDFS - 所查询数据的存储位置

Impala执行查询的处理过程如下:

  1. 用户程序通过ODBC或JDBC发送SQL给Impala,其中Impala提供了标准的查询接口。用户程序可能连接到集群中任意impalad进程,这一impalad进程作为这一查询的协调器。
  2. Impala解析、分析这一查询,确定什么任务由集群中哪一impalad实例执行,执行计划最优。
  3. Impalad实例会访问本地HDFS和HBase服务,获取数据。
  4. 每一个impalad都返回数据给协调器impalad,并由它发送结果给客户端。

Impala主要特性

Impala提供以下支持:

  • Hive查询语言(HiveQL)中最通用的SQL-92功能,包括SELECT、连接(join)、以及聚合函数
  • HDFS and HBase 存储,包括:  
    • HDFS文件格式:Text文件, SequenceFile, RCFile, Avro文件以及Parquet。
    • 压缩编解码: Snappy, GZIP, Deflate, BZIP。
  • 通用Hive接口,包括:  
    • JDBC驱动
    • ODBC驱动
    • Hue Beeswax和新Cloudera Impala Query UI
  • Impala命令行接口
  • Kerberos认证

安装使用Cloudera Impala的更多相关文章

  1. Cloudera impala简单介绍及安装具体解释

    一.Impala简单介绍 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL.除了像Hive使用同样的统一存储平台,Impala也使 ...

  2. cloudera impala编译 安装 配置 启动

    无论是采用GDB调试impala或者尝试修改impala源码,前提都是需要本地环境编译impala,这篇文章详细的分享一下impala编译方法以及编译过程遇到的棘手的问题: 前言: impala官方的 ...

  3. 安装Cloudera Impala

    安装Cloudera Impala Cloudera Impala是Cloudera Enterprise Core的开源扩展,用于快速返回查询结果. Impala作为你环境的插件,与其他组件的安装独 ...

  4. impala记录-安装kudu和impala

    1.配置/etc/yum.repos.d clouder-kudu.repo [cloudera-kudu]# Packages for Cloudera's Distribution for kud ...

  5. CDH5上安装Hive,HBase,Impala,Spark等服务

    Apache Hadoop的服务的部署比較繁琐.须要手工编辑配置文件.下载依赖包等.Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤.因为须要对Hive,HBase ...

  6. Cloudera Impala需求

    Cloudera Impala需求 为了达到预期的效果,Impala依赖于软件.硬件的可用性,以及下面章节描述的配置. 继续阅读: 支持的操作系统 支持的Hadoop发布 Hive Metastore ...

  7. Cloudera Impala Guide

    Impala Concepts and Architecture The following sections provide background information to help you b ...

  8. 初识 Cloudera Impala

    Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统尽管也提供了SQL语义,但因为Hive底层 ...

  9. Cloudera Manager安装之Cloudera Manager安装前准备(Ubuntu14.04)(一)

    其实,基本思路跟如下差不多,我就不多详细说了,贴出主要图. 博主,我是直接借鉴下面这位博主,来进行安装的!(灰常感谢他们!) 在线和离线安装Cloudera CDH 5.6.0  Cloudera M ...

随机推荐

  1. React Native细节记录

    1.环境搭建部分 安装完node后建议设置npm镜像以加速后面的过程(或使用***工具).注意:不要使用cnpm!cnpm安装的模块路径比较奇怪,packager不能正常识别! npm config ...

  2. 在项目中使用CLR规划

    1.创建自己的项目 2.对"解..."→参加→目→C#→数据库→SQL Server项目,例如以下图所看到的: 3.选择操作数据库 4.创建存储过程 5.代码(详见:CLR存储过程 ...

  3. Spring boot+RabbitMQ环境

    Spring boot+RabbitMQ环境 消息队列在目前分布式系统下具备非常重要的地位,如下的场景是比较适合消息队列的: 跨系统的调用,异步性质的调用最佳. 高并发问题,利用队列串行特点. 订阅模 ...

  4. 关闭Wind XP/Vista/Win7的DEP数据执行保护汇总(转)

    数据执行保护 (DEP) 是一种Windows安全机制,从Windows版本顺序上看是从Windows XP SP2开始引入,通过监视程序以确保它们使用的系统内存是安全的,帮助防止操作系统受到病毒和其 ...

  5. Win7,Vista UAC下应用程序标注为“需要管理员权限”的四种方法(可以修改注册表)

    [转]Vista UAC下应用程序标注为“需要管理员权限”的四种方法 在Microsoft 的UACBlog里对此有过叙述.总结如下: 首先,如果一个程序被识别为管理员程序时,Vista会在它的图标上 ...

  6. 参数方法(parameter)与非参数方法(nonparameter)

    参数方法表示参数固定,不随数据点的变化而变化: 非参数方法并不意味着没有参数,而是说,参数的数目随数据点而变化, 1. 参数方法举例 logistic regression:p(y=1|x,α)=11 ...

  7. VC6下深入理解new[]和delete[](在多线程下new和delete的时候,必须选择上多线程库,不然可能造成进程崩溃)

    多少年了,一直处于C与C++混用的状态,申请空间一直用malloc,释放空间一直用free,为什么?因为他们好理解易操作,就如同输出一直用printf而不用<<,输入一直用scanf而不用 ...

  8. Fiddler教程(Web调试工具)

    转载地址:写得很不错的fildder教程   http://kb.cnblogs.com/page/130367/ Fiddler的基本介绍 Fiddler的官方网站:  www.fiddler2.c ...

  9. WPF 图片灰度处理

    原文:WPF 图片灰度处理 文章的内容是来自微软中文技术论坛的一个帖子,当时是想将一段将图片灰度处理的代码转换为XAML的一个样式,在这里要谢谢 Xiao Yan Qiang.Sheldon _Xia ...

  10. WCF 大文件传输配置

    <bindings> <webHttpBinding> <!--这个是接收大数据加的,设置WCF服务器端数据接收上限参数,此处单位字节,故2147483647字节==2G ...