HIVE中的分区表是什么，我们先看操作，然后再来体会。

创建一个分区表，分区的单位时dt和国家名

hive> create table logs(ts bigint,line string)

    > partitioned by (dt String,country string);

接下来我们创建要给分区

hive> load data local inpath '/root/hive/partitions/file1' into table logs

    > partition (dt='2001-01-01',country='GB');

上面语句的效果是在hdfs系统上建立了一个层级目录

　　-logs

　　　　-dt=2001-01-01

　　　　-country=GB

我们继续执行下面语句，先看一下什么效果

hive>  load data local inpath '/root/hive/partitions/file2' into table logs

    > partition (dt='2001-01-01',country='GB');

Loading data to table default.logs partition (dt=2001-01-01, country=GB)

OK

Time taken: 1.379 seconds

hive>  load data local inpath '/root/hive/partitions/file3' into table logs

    > partition (dt='2001-01-01',country='US');

Loading data to table default.logs partition (dt=2001-01-01, country=US)

OK

Time taken: 1.307 seconds

hive>  load data local inpath '/root/hive/partitions/file4' into table logs

    > partition (dt='2001-01-02',country='GB');

Loading data to table default.logs partition (dt=2001-01-02, country=GB)

OK

Time taken: 1.253 seconds

hive>  load data local inpath '/root/hive/partitions/file5' into table logs

    > partition (dt='2001-01-02',country='US');

Loading data to table default.logs partition (dt=2001-01-02, country=US)

OK

Time taken: 1.07 seconds

hive>  load data local inpath '/root/hive/partitions/file6' into table logs

    > partition (dt='2001-01-02',country='US');

Loading data to table default.logs partition (dt=2001-01-02, country=US)

OK

Time taken: 1.227 seconds

我们到HDFS上查看，发现建立了下面层级目录

/user/hive/warehouse/logs
├── dt=2001-01-01/
│ ├── country=GB/
│ │ ├── file1
│ │ └── file2
│ └── country=US/
│ └── file3
└── dt=2001-01-02/
├── country=GB/
│ └── file4
└── country=US/
├── file5
└── file6

是加上所有files的内容基本上一样，蓝色的^A是系统默认分隔符。八进制是‘\001’.随后参考我的另一个文章。比较详细解释了分隔符。

总结：分区表的意思，其实想明白了就很简单。就是在系统上建立文件夹，把分类数据放在不同文件夹下面，加快查询速度。

关键点1：partitioned by (dt String,country string); 创建表格时，指明了这是一个分区表。将建立双层目录，第一次目录的名字和第二层目录名字规则

PARTITIONED BY子句中定义列，是表中正式的列，成为分区列。但是数据文件中并没有这些值，仅代表目录。

关键点2： partition (dt='2001-01-01',country='GB'); 上传数据时，把数据分别上传到不同分区中。也就是分别放在不同的子目录下。

理解分区就是文件夹分而治之，查询的时候可以当作列名来显示查询的范围。

查看分区结构

hive> show partitions logs;

OK

dt=2001-01-01/country=GB

dt=2001-01-01/country=US

dt=2001-01-02/country=GB

dt=2001-01-02/country=US

条件限定了country='GB'目录所以只有file1,2,4的内容输出

hive> select ts,dt,line

    > from logs

    > where country='GB';

OK

1    2001-01-01    Log line 1

2    2001-01-01    Log line 2

4    2001-01-02    Log line 4

现在只查看dt=2001-01-02目录下country=US的文件夹下的数据。

hive> select ts,dt,line
> from logs
> where dt='2001-01-02'
> and country='US';
OK
5 2001-01-02 Log line 5
6 2001-01-02 Log line 6

HIVE-分区表详解以及实例的更多相关文章

XML参考：XmlReader 详解、实例
XML参考 :XmlReader 详解.实例-- 详解转:http://www.cnblogs.com/Dlonghow/archive/2008/07/28/1252191.html XML参考 ...
Protocol Buffer技术详解(Java实例)
Protocol Buffer技术详解(Java实例) 该篇Blog和上一篇(C++实例)基本相同,只是面向于我们团队中的Java工程师,毕竟我们项目的前端部分是基于Android开发的,而且我们研发 ...
Protocol Buffer技术详解(C++实例)
Protocol Buffer技术详解(C++实例) 这篇Blog仍然是以Google的官方文档为主线,代码实例则完全取自于我们正在开发的一个Demo项目,通过前一段时间的尝试,感觉这种结合的方式比较 ...
Java学习-007-Log4J 日志记录配置文件详解及实例源代码
此文主要讲述在初学 Java 时,常用的 Log4J 日志记录配置文件详解及实例源代码整理.希望能对初学 Java 编程的亲们有所帮助.若有不足之处,敬请大神指正,不胜感激!源代码测试通过日期为:20 ...
groupadd命令详解（实例）
groupadd命令详解(实例) 1.作用groupadd命令用于将新组加入系统. 2.格式groupadd [-g gid] [-o]] [-r] [-f] groupname 3.主要参数-g ...
GLSL-几何着色器详解跟实例（GS：Geometry Shader）[转]
[OpenGL4.0]GLSL-几何着色器详解和实例(GS:Geometry Shader) 一.什么是几何着色器(GS:Geometry Shader) Input Assembler(IA)从顶点 ...
CvMat、Mat、IplImage之间的转换详解及实例
见原博客:http://blog.sina.com.cn/s/blog_74a459380101obhm.html OpenCV学习之CvMat的用法详解及实例 CvMat是OpenCV比较基础的函数 ...
C语言操作WINDOWS系统存储区数字证书相关函数详解及实例
C语言操作WINDOWS系统存储区数字证书相关函数详解及实例以下代码使用C++实现遍历存储区证书及使用UI选择一个证书 --使用CertOpenSystemStore打开证书存储区. --在循环中 ...
httpd配置文件详解及实例
httpd配置文件详解及实例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.http协议的组成 http协议是C/S架构:我们可以把浏览器(如:IE,Firefox,Safar ...
oracle partition table 分区表详解
Oracle partition table 分区表详解分区表就是通过使用分区技术,将一张大表,拆分成多个表分区(独立的segment),从而提升数据访问的性能,以及日常的可维护性.分区表中,每个分 ...

随机推荐

【HackerRank】Halloween party
Change language : Alex is attending a Halloween party with his girlfriend Silvia. At the party, Silv ...
主攻ASP.NET.4.5.1 MVC5.0之重生:空地搭建一个包含 Ninject框架项目
1.创建一个空白解决方案 2.添加一个类库名称为XXX.Domain 3.添加一个ASP.MVC 名称为XXX.WebUI 4.选着空模版,勾选MVC核心引用 5.添加单元测试项目XXX.UntiT ...
Cisco路由器端口
Cisco的设备管理有很多种方式,如Console.HTTP.TTY.VTY或其它网管软件,但我们远程管理较为常用的一种方式肯定是VTY方式. VTY在Cisco的不同系列产品中,都有一定数量的VTY ...
java instrumentation &JVMTI
Java Instrumentation (参考:http://www.ibm.com/developerworks/cn/java/j-lo-jse61/) 简介: 使用Instrumentatio ...
IntelliJ IDEA 中右键新建时，选项没有Java class的解决方法和具体解释
我是在别人问我的时候,才发现还可以有这个问题,主要是他新项目直接打开,什么都没配置,就打算新建文件,其实可以直接看编辑器右下角的event log,那个对话框点开的话,可以add as maven p ...
windows10 搜索桌面搜索功能失效的解决
windows桌面的搜索框用起来很方便,很多时候直接把不常用的程序的快捷方式删掉,直接从搜索框搜索就可以,但是这两天突然不能用了,今天晚上找了一下原因,终于弄好了. 参考知乎上面的陈滔滔的方法: ht ...
mysql启动报can't create/write to file 'var/run/mysqld/mysqld.pid 错误解决办法
msql启动报错,启动不了. 进入mysql日志默认的路径为 /var/log/mysqld.log 查看日志,发现报错信息如下: can't create/write to file 'var/ru ...
Linux自定义别名alias重启失效问题
Linux上的别名功能非常方便,例如ll可以显示文件列表的长信息,但是却不是以human能读懂的方式显示,所以我尝试直接在命令行中自定义一个别名: alisa lk='ls -lh' 然后lk就能正常 ...
Luogu-1527 [国家集训队]矩阵乘法
Luogu-1527 [国家集训队]矩阵乘法题面 Luogu-1527 题解昨天学CDQ分治时做了一些题,但是因为题(wo)太(tai)水(lan)了(le)并没有整理学了一晚上的整体二分,拿这 ...
Luogu-3878 [TJOI2010]分金币
这题和在我长郡考试时的一道题思路差不多...考虑折半搜索,预处理左半边选的方案所产生的数量差值\(x\)以及价值差值\(y\),把\(y\)扔到下标为\(x\)的set里面,然后在搜索右半边,每搜出一 ...

HIVE-分区表详解以及实例

HIVE中的分区表是什么，我们先看操作，然后再来体会。

HIVE-分区表详解以及实例的更多相关文章

随机推荐

热门专题