Hadoop Hive概念学习系列之hive里的分区（九）

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。

　分区是表的部分列的集合，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。

分区是一种根据“分区列”（partition column）的值对表进行粗略划分的机制。Hive中的每个分区对应数据库中相应分区列的一个索引，每个分区对应着表下的一个目录，在HDFS上的表现形式与表在HDFS上的表现形式相同，都是以子目录的形式存在。

　　一个表可以在多个维度上进行分区，并且分区可以嵌套使用。建分区需要在创建表时通过PARTITIONED BY子句指定，例如：

CREATE TABLE logs(

timestamp BIGINT,

line STRING

)

PARTITIONED BY (date STRING,country STRING);

　　在将数据加载到表内之前，需要数据加载人员明确知道所加载的数据属于哪一个分区。

　　使用分区在某些应用场景下能给有效地提高性能，当只需要遍历某一个小范围内的数据或者一定条件下的数据时，它可以有效减少扫描数据的数量，前提是需要将数据导入到分区内。

　　注意：PARTITONED BY子句中定义的列是表中正式的列（分区列），但是数据文件内并不包含这些列。

在Hive里，为什么要分区?

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区或切片的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。

数据会依照单个或多个列进行分区，通常按照时间、地域或者是商业维度进行分区。比如vido表，分区的依据可以是电影的种类和评级，另外，按照拍摄时间划分可能会得到更一致的结果。为了达到性能表现的一致性，对不同列的划分应该让数据尽可能均匀分布。最好的情况下，分区的划分条件总是能够对应where语句的部分查询条件。

　　Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值。但是由于HDFS并不支持大量的子目录，这也给分区的使用带来了限制。我们有必要对表中的分区数量进行预估，从而避免因为分区数量过大带来一系列问题。

　　Hive查询通常使用分区的列作为查询条件。这样的做法可以指定MapReduce任务在HDFS中指定的子目录下完成扫描的工作。HDFS的文件目录结构可以像索引一样高效利用。

Hadoop Hive概念学习系列之hive里的分区（九）的更多相关文章

Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）
<Spark最佳实战陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...
Hadoop Hive概念学习系列之hive里如何显示当前数据库及传参（十九）
这个小知识点,看似简单,用处极大. $ hive --hiveconf hive.cli.print.current.db=true $ hive --hiveconf hive.cli.print. ...
Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）
说在前面的话以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以 ...
Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行 ...
Hadoop Hive概念学习系列之hive里的JDBC编程入门（二十二）
Hive与JDBC示例在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口.在hive安装目录下的bin,使用下面命令进行开启: hive -service hives ...
Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）
Hive可以通过实现用户定义函数(User-Defined Functions,UDF)进行扩展(事实上,大多数Hive功能都是通过扩展UDF实现的).想要开发UDF程序,需要继承org.apache ...
Hadoop Hive概念学习系列之hive里的视图（十二）
不多说,直接上干货! 可以先,从MySQL里的视图概念理解入手视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表.在数据库中,存放的只是视图的定义,而不存放视图包含的 ...
Hadoop Hive概念学习系列之hive里的桶（十一）
不多说,直接上干货! Hive还可以把表或分区,组织成桶.将表或分区组织成桶有以下几个目的: 第一个目的是为看取样更高效,因为在处理大规模的数据集时,在开发.测试阶段将所有的数据全部处理一遍可能不太 ...

随机推荐

Laravel初级教程浅显易懂适合入门
整理了一些Laravel初级教程,浅显易懂,特适合入门,留给刚学习laravel想快速上手有需要的朋友最适合入门的laravel初级教程(一)序言最适合入门的laravel初级教程(二)安装使用 ...
CSS分列等高
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
inter x86 emulator accelerator(HAXM installer) not compatible with windows
在SDK manager中遇到如下错误:这将导致AVD后期运行和启动方面的问题. 解决办法: 在如下的网址里面下载haxm-windows_v6_2_0这个文件的压缩包,自己手动安装即可.网站如下:点 ...
centos7 设置静态IP
centos7 图形设置 yum install NetworkManager-tui #centos7 nmtui edit eth0 #图形设置ip systemctl restart netwo ...
对比jQuery和AngularJS的不同思维模式
jQuery是dom驱动,AngularJS是数据驱动,这里有一篇文章阐述的非常好,建议看看本文来自StackOverFlow上How do I “think in AngularJS” if I ...
LNMPA架构剖析
LAMP或LNMP的劣势: Nginx是小巧而高效的Linux下Web服务器,跟Apache相比,它消耗资源更少,支持的并发连接更多,反向代理功能效率高.静态文件处理更快等等,Nginx可以承受3万以 ...
Lintcode: Kth Prime Number (Original Name: Ugly Number)
Ugly number is a number that only have factors 3, 5 and 7. Design an algorithm to find the kth numbe ...
转载 vsftpd安装
http://blog.csdn.net/shutfuckingup/article/details/8250290 1:安装vsftpd yum install vsftpd 2:关闭防火墙 ...
MFC六大核心机制之四：永久保存（串行化）
永久保存(串行化)是MFC的重要内容,可以用一句简明直白的话来形容其重要性:弄懂它以后,你就越来越像个程序员了! 如果我们的程序不需要永久保存,那几乎可以肯定是一个小玩儿.那怕我们的记事本.画图等小程 ...
POJ 1182 并查集
Description 动物王国中有三类动物A,B,C,这三类动物的食物链构成了有趣的环形.A吃B, B吃C,C吃A. 现有N个动物,以1-N编号.每个动物都是A,B,C中的一种,但是我们并不知道它到 ...

Hadoop Hive概念学习系列之hive里的分区（九）

Hadoop Hive概念学习系列之hive里的分区（九）的更多相关文章

随机推荐

热门专题