impala 概述

什么是Impala？

Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。

换句话说，Impala是性能最高的SQL引擎（提供类似RDBMS的体验），它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

为什么选择Impala？

Impala通过使用标准组件（如HDFS，HBase，Metastore，YARN和Sentry）将传统分析数据库的SQL支持和多用户性能与Apache Hadoop的可扩展性和灵活性相结合。

使用Impala，与其他SQL引擎（如Hive）相比，用户可以使用SQL查询以更快的方式与HDFS或HBase进行通信。
Impala可以读取Hadoop使用的几乎所有文件格式，如Parquet，Avro，RCFile。

Impala将相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）用作Apache Hive，为面向批量或实时查询提供熟悉且统一的平台。

与Apache Hive不同，Impala不基于MapReduce算法。它实现了一个基于守护进程的分布式架构，它负责在同一台机器上运行的查询执行的所有方面。

因此，它减少了使用MapReduce的延迟，这使Impala比Apache Hive快。

Impala的优点

以下是Cloudera Impala的一些值得注意的优点的列表。

使用impala，您可以使用传统的SQL知识以极快的速度处理存储在HDFS中的数据。
由于在数据驻留（在Hadoop集群上）时执行数据处理，因此在使用Impala时，不需要对存储在Hadoop上的数据进行数据转换和数据移动。
使用Impala，您可以访问存储在HDFS，HBase和Amazon s3中的数据，而无需了解Java（MapReduce作业）。您可以使用SQL查询的基本概念访问它们。
为了在业务工具中写入查询，数据必须经历复杂的提取 - 变换负载（ETL）周期。但是，使用Impala，此过程缩短了。加载和重组的耗时阶段通过新技术克服，如探索性数据分析和数据发现，使过程更快。
Impala正在率先使用Parquet文件格式，这是一种针对数据仓库场景中典型的大规模查询进行优化的柱状存储布局。

Impala的功能

以下是cloudera Impala的功能 -

Impala可以根据Apache许可证作为开源免费提供。
Impala支持内存中数据处理，即，它访问/分析存储在Hadoop数据节点上的数据，而无需数据移动。
您可以使用Impala使用类SQL查询访问数据。
与其他SQL引擎相比，Impala为HDFS中的数据提供了更快的访问。
使用Impala，您可以将数据存储在存储系统中，如HDFS，Apache HBase和Amazon s3。
您可以将Impala与业务智能工具（如Tableau，Pentaho，Micro策略和缩放数据）集成。
Impala支持各种文件格式，如LZO，序列文件，Avro，RCFile和Parquet。
Impala使用Apache Hive的元数据，ODBC驱动程序和SQL语法。

关系数据库和Impala

Impala使用类似于SQL和HiveQL的Query语言。下表描述了SQL和Impala查询语言之间的一些关键差异。

Impala	关系型数据库
Impala使用类似于HiveQL的类似SQL的查询语言。	关系数据库使用SQL语言。
在Impala中，您无法更新或删除单个记录。	在关系数据库中，可以更新或删除单个记录。
Impala不支持事务。	关系数据库支持事务。
Impala不支持索引。	关系数据库支持索引。
Impala存储和管理大量数据（PB）。	与Impala相比，关系数据库处理的数据量较少（TB）。

Hive，Hbase和Impala

虽然Cloudera Impala使用与Hive相同的查询语言，元数据和用户界面，但在某些方面它与Hive和HBase不同。下表介绍了HBase，Hive和Impala之间的比较分析。

HBase	Hive	Impala
HBase是基于Apache Hadoop的宽列存储数据库。它使用BigTable的概念。	Hive是一个数据仓库软件。使用它，我们可以访问和管理基于Hadoop的大型分布式数据集。	Impala是一个管理，分析存储在Hadoop上的数据的工具。
HBase的数据模型是宽列存储。	Hive遵循关系模型。	Impala遵循关系模型。
HBase是使用Java语言开发的。	Hive是使用Java语言开发的。	Impala是使用C ++开发的。
HBase的数据模型是无模式的。	Hive的数据模型是基于模式的。	Impala的数据模型是基于模式的。
HBase提供Java，RESTful和Thrift API。	Hive提供JDBC，ODBC，Thrift API。	Impala提供JDBC和ODBC API。
支持C，C＃，C ++，Groovy，Java PHP，Python和Scala等编程语言。	支持C ++，Java，PHP和Python等编程语言。	Impala支持所有支持JDBC / ODBC的语言。
HBase提供对触发器的支持。	Hive不提供任何触发器支持。	Impala不提供对触发器的任何支持。

所有这三个数据库 -

是NOSQL数据库。
可用作开源。
支持服务器端脚本。
按照ACID属性，如Durability和Concurrency。
使用分片进行分区。

Impala的缺点

使用Impala的一些缺点如下 -

Impala不提供任何对序列化和反序列化的支持。
Impala只能读取文本文件，而不能读取自定义二进制文件。
每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。

更多https://www.w3cschool.cn/impala/impala_overview.html

impala 概述的更多相关文章

《开源大数据分析引擎Impala实战》目录
当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录第1章 Impala概述.安装与配置.. ...
Power BI官方视频(1) Power BI Desktop 7月份更新功能概述
2016年7月,Power BI Desktop进行了一些功能更新,提高整体的用户体验.同时也有一些新的和令人兴奋的功能.看看大概介绍,更新功能要点: 本文原文地址:Power BI官方视频(1) P ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...
【转载】Impala和Hive的区别
Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中.并且im ...
自己动手写Impala UDF
本文由网易云发布. 概述出于对可扩展性和性能的考虑,UDF已变成大数据生态圈查询引擎的必备功能之一,无论是Calcite.Hive.Impala都对其进行支持,但是UDF的支持有利也有弊,好处在 ...
Impala SQL 语言元素（翻译）[转载]
原 Impala SQL 语言元素(翻译) 本文来源于http://my.oschina.net/weiqingbin/blog/189413#OSC_h2_2 摘要 http://www.cloud ...
Impala和Hive的关系（详解）
Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中.并且im ...
大数据技术之_09_Flume学习_Flume概述+Flume快速入门+Flume企业开发案例+Flume监控之Ganglia+Flume高级之自定义MySQLSource+Flume企业真实面试题（重点）
第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flum ...
Hive2.2.1概述（待重写）
概述 hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询. Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上,元信息 ...

随机推荐

c进程学习日志
#include<unistd.h> #include<sys/types.h> #include<pwd.h> #include<stdio.h> i ...
紫书习题 11-17 UVa 1670 （图论构造）
一开始要符合题目条件, 那么肯定没有任何一个点是孤立的, 也就是说没有点的度数是1 所以我就想让度数是1的叶子节点相互连起来.然后WA 然后看这哥们的博客 https://blog.csdn.net/ ...
Java的TreeMap，C++的lower_bound，合并间隔
https://leetcode.com/problems/data-stream-as-disjoint-intervals/?tab=Description 这道题目是合并间隔的经典题目. htt ...
最多包含2/k个不同字符的最长串
看这里的解答: http://www.cnblogs.com/grandyang/p/5351347.html 通用解决了2和k的问题.
Mysql写出高质量的sql语句的几点建议
CleverCode在实际的工作也写过一些低效率的sql语句.这些语句会给数据库带来非常大的压力.最基本的表现就是sql语句执行慢,后来逐渐的去优化和尝试. 总结了一些高质量的sql语句的写法.这里C ...
DNS RR代码和含义
记录类型代码号码定义的 RFC 描述功能 A 1 RFC 1035 IP 地址记录传回一个 32 比特的 IPv4 地址,最常用于映射主机名称到 IP地址,但也用于DNSBL(RFC 110 ...
matplotlib 可视化 —— 定制画布风格 Customizing plots with style sheets（plt.style）
Customizing plots with style sheets - Matplotlib 1.5.1 documentation 1. 使用和显示其他画布风格 >> import ...
BZOJ 3223 Splay区间翻转
思路: 区间翻转的裸题终于tm理解splay了-- //By SiriusRen #include <cstdio> #include <cstring> #include ...
POJ 3173 模拟
按照题意模拟就好-- //By SiriusRen #include <cstdio> #include <algorithm> using namespace std; in ...
Android属性动画-Interpolator和ViewPropertyAnimator的用法
Interpolator的用法 Interpolator这个东西很难进行翻译,直译过来的话是补间器的意思,它的主要作用是可以控制动画的变化速率,比如去实现一种非线性运动的动画效果.那么什么叫做非线性运 ...

impala 概述

impala 概述

什么是Impala？

为什么选择Impala？

Impala的优点

Impala的功能

关系数据库和Impala

Hive，Hbase和Impala

Impala的缺点

impala 概述的更多相关文章

随机推荐

热门专题