翻译自《Getting Started with Impala》

分布式查询

　　分布式查询是impala的核心。曾几何时，你需要研究并行计算，才能开始进行深奥而晦涩的操作。现在，有运行在Hadoop上面的Impala，你只需要...一台笔记本电脑。理想情况下，一个IT部门也会有运行着Cloudera Distribution with Hadoop (CDH)的Linux服务器集群。但在紧急情况下，有一个虚拟机的单独的笔记本电脑就能够进行开发和设计的工作。

　　当一个Impala查询在一个Hadoop集群上运行时，Impala将工作分解成多个阶段，并且自动的将适当的请求发送给集群中对应的节点。这种自动分工就是为什么Impala能这么好适用于大数据应用案例的原因。当一个工作被4个，10个，100个或者更多的机器划分的时候，这些查询根据单机的容量而应变，形成一个单元来运行。分解工作和制定它在这么多的机器之间通信会产生一些开销。因此，有两个重点：1.为高效的查询处理组织好你的方案 2.帮助Impala估计特定的查询会涉及多少工作。

　　每个分布式查询执行步骤如下（极大的简化了）：

　　1.Node #1，core #1：从你的本地磁盘的相关数据块中读取大数据文件的一部分。

　　2.Node #1，core #2：读取相同文件的不同部分。每个请求像这样运行，使得一个节点有着该请求对应的数据块备份。多核意味着每个服务器有并行处理4,8,16甚至更多的数据块的潜力。

　　3.Node #2 ，core #1：读取整个小的数据文件。该文件要足够小，以至于能适应单个HDFS块，这样一来你就能处理所有事情了。

　　4.重复以上集群中所有数据节点和节点中的核的工作，增加每个节点的可用磁盘数量。保持运行，直到所有的相关HDFS数据块被处理完。

　　5.假设：处理一个查询，只需要列X，Y和Z，并且产生一个结果集。那么，每个节点：忽略来自所有其它列的数据。（使用Parquet格式的表的话，这些被忽略的数据将不会被读取）这种操作就是所谓的投影（projection）。

　　6.每个节点：当你读取数据文件时，忽略所有不符合WHERE条款的行。这就是一个过滤（filtering）操作；在WHERE条款中的条件被称作为断言（predicates）。

　　7.每个节点：现在可以得到所保存的更加易于管理的数据量，在它上面进行求和，排序，分组，函数调用，或者其它操作。

　　8.对表中的所有相关的数据文件运行这些步骤，直到所有需要的数据读取完毕，并且每个节点的每个核得出自己部分所对应的结果集。

　　9.如果查询语句有LIMIT条款，那么结果集会更加被压缩。每个节点：假设你是一个寻找到“top N”结果的节点，并且只返回前N行的结果集。

　　10.现在如果有一个JOIN或者UNION条框，每个节点传送必要的中间结果给其它节点来进行交叉检查，消除重复等等。对所有的JOIN和UNION条款重复以上步骤。

　　11.当查询的所有阶段的中间结果都已经准备好了，就尽量把结果返回给任何首先初始化查询的节点。这个协调节点（coordinator node）进行必要的最终排序，分组和聚合。比如，只有当所有的中间结果可以相互比较的时候，才能最终裁定“top 10 visitors”。

　　所有的并行处理对结果的特性具有以下的影响：

任何写操作可能产生多个输出文件，每个节点以单独的文件作为返回的运行结果。
哪个数据在哪个节点上处理事先并不确定。因此，在连续查询的时候，会存在一定程度的性能变化。
通过后续查询而形成的特定排序，返回至磁盘上的结果是不可靠的。工作可能被分解到不同的节点上，或者节点会根据完成自己那部分的工作的速度，以不同的顺序返回中间结果。
跨群集分配工作之前，每个查询的规划阶段会尽可能的计算出未知数。Impala会尽可能的把表达式转化为常量，而不是在每个节点上重新计算它们。当你调用时间相关的函数时，比如说 NOW()，在查询开始的时候，那时候的时间会被捕获，并且所有节点上使用相同的值，而不会重新计算每个节点开始工作的精确时间。
传送最终结果给协调节点所花的时间和结果集的大小成正比。因此，Impala的查询一般会避免大表的select * 操作，并且一般会包含多个WHERE条款，一个LIMIT条款或者聚合函数，来把结果压缩成相对小的体积，并且减少网络开销。

Impala的分布式查询的更多相关文章

mongodb分布式查询
分布式查询:mongodb的分布式模型分为replica set和sharded cluster. sharded集群中将read根据sharding key(分片键)转发到指定的shard节点,re ...
SQL分布式查询、跨数据库查询
--[方法1]连接服务器方法 --step1 创建链接服务器 exec sp_addlinkedserver 'srv_lnk','','SQLOLEDB', 'ip地址' exec sp ...
sql server中分布式查询随笔
由于业务逻辑的多样性经常得在sql server中查询不同数据库中数据这就产生了分布式查询的需求现我将开发中遇到的几种查询总结如下: 1.access版本 --建立连接服务器 exec sp_a ...
Oracle 跨库查询复制表数据分布式查询
方法一: 在眼下绝大部分数据库有分布式查询的须要.以下简单的介绍怎样在oracle中配置实现跨库訪问. 比方如今有2个数据库服务器,安装了2个数据库.数据库server A和B.如今来实如今A库中訪问 ...
T-SQL 分布式查询
--返回本地服务器中定义的链接服务器列表. EXEC sys.sp_linkedservers /* 创建或更新 SQL Server 本地实例上的登录名与远程服务器中安全帐户之间的映射. 当用户登录 ...
sql server中分布式查询随笔(链接服务器(sp_addlinkedserver)和远程登录映射(sp_addlinkedsrvlogin)使用小总结)
由于业务逻辑的多样性,经常得在sql server中查询不同数据库中数据,这就产生了分布式查询的需求现我将开发中遇到的几种查询总结如下: 1.access版本 --建立连接服务器 EXEC sp_a ...
MSSQl分布式查询（转）
MSSQlServer所谓的分布式查询(Distributed Query)是能够访问存放在同一部计算机或不同计算机上的SQL Server或不同种类的数据源, 从概念上来说分布式查询与普通查询区别 ...
求解：为什么impala实现hive查询可以使用ifnull()函数，不可以使用length() 函数
求大神解惑,找了很久都没有找到为什么??? hive支持length() 函数,不支持ifnull()函数??? impala实现hive查询支持ifnull()函数,不支持length() 函数 ...
Kafka分布式查询引擎
1.概述 Kafka是一个分布式消息中间件系统,里面存储着实际场景中的数据.Kafka原生是不支持点查询的,如果我们想对存储在Topic中的数据进行查询,可能需要对Topic中的数据进行消费落地,然后 ...

随机推荐

【aspnetcore】在过滤器(Filter)中使用注入服务(ServiceFilter|TypeFilter)
在MVC中,AOP是很常用的功能,我们经常会使用如 ActionFilter,IAuthorizeFilter 等描述对Controller和Action进行约束和扩展,一般做法如下: public ...
通过configmap更新k8s里的mysql配置文件
背景: 环境注意:在用rancher搭建的k8s里,mysql是起了一个pod,镜像是网上的mysql:5.7 开发人员提出了一个报错“查询时的ONLY_FULL_GROUP_BY错误”,让我改sql ...
539 Minimum Time Difference 最小时间差
给定一个 24 小时制(小时:分钟)的时间列表,找出列表中任意两个时间的最小时间差并已分钟数表示.示例 1:输入: ["23:59","00:00"]输出: 1 ...
Spark Mllib里如何将trainDara训练数据的分类特征字段转换为数值字段（图文详解）
不多说,直接上干货! 字段3 是分类特征字段,但是呢,在分类算法里不能直接用.所以,必须要转换为数值字段才能够被分类算法使用. 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的 ...
Linux查看某个端口是否启动
查看命令 netstat -an | 执行结果: [root@test ~]# netstat -an | tcp 0.0.0.0:* LISTEN 有tcp 这一行返回说明已开放
用vue.js实现购物车功能
购物车是电商必备的功能,可以让用户一次性购买多个商品,常见的购物车实现方式有如下几种: 1. 用户更新购物车里的商品后,页面自动刷新. 2. 使用局部刷新功能,服务器端返回整个购物车的页面html 3 ...
在Window上用cmd创建.htaccess文件
Windows 图形下不能直接建立空名字的文件,所以没法直接创建.htaccess文件,不过可以通过命令行创建: cd /path/to/your/dir/ type nul>.htaccess ...
除虫记——有关WindowsAPI文件查找函数的一次压力测试
作者:朱金灿来源:http://blog.csdn.net/clever101 这里说的除虫是指排除bug的意思.今天排除了一个有意思的bug,其中的场景大致是这样的:现在你要统计一个文件夹下非隐藏 ...
PHP 常用的无限遍历方法
一.根据父节点ID循环遍历其下所有子节点 /** * @name 根据id递归某个父类节点下的所有分类节点 * @author tbj * @date 2015-12-19 */ public fun ...
用YII实现多重查询(基于tag)
场景: 有一个饭店表 restaurant,存放所有饭店记录.我需要一个功能,将饭店按照不同的条件进行多重查询.就象这样: 氛围:浪漫 / 商务会谈 / 茅草屋菜系:川菜 / 鲁菜 / 家常菜. ...

Impala的分布式查询

分布式查询

Impala的分布式查询的更多相关文章

随机推荐

热门专题