一、分区表创建与说明

必须在表定义时创建partition

a、单分区建表语句：create table day_table (id int, content string) partitioned by (dt string);单分区表，按天分区，在表结构中存在id，content，dt三列。

以dt为文件夹区分

b、双分区建表语句：create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表，按天和小时分区，在表结构中新增加了dt和hour两列。

先以dt为文件夹，再以hour子文件夹区分

添加分区表语法（表已创建，在此基础上添加分区）：ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

ALTER TABLE day_table ADD

PARTITION (dt='2008-08-08', hour='08')

location '/path/pv1.txt'

删除分区语法：ALTER TABLE table_name DROP

partition_spec, partition_spec,...

用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例：

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

数据加载进分区表中语法：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

例：

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*'
INTO TABLE day_hour partition(dt='2010-07- 07');当数据被加载至表中时，不会对数据进行任何转换。Load操作只是将数据复制至Hive表对应的位置。数据加载时在表下自动创建一个目录

基于分区的查询的语句：SELECT
day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

查看分区语句：

hive> show partitions day_hour_table; OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

二、静态与动态分区表

partition是hive提供的一种机制：用户通过指定一个或多个partition key，决定数据存放方式，进而优化数据的查询

一个表可以指定多个partition key，每个partition在hive中以文件夹的形式存在。

1、静态分区（static partition）：

编辑文件：/home/work/data/test3.txt; /home/work/data/test4.txt;

$ cat /home/work/data/test3.txt

1,zxm

2,ljz

3,cds

4,mac

5,android

6,symbian

7,wp

$ cat /home/work/data/test4.txt

8,zxm

9,ljz

10,cds

11,mac

12,android

13,symbian

14,wp

建表：

hive> create table student_tmp(id INT, name STRING)

> partitioned by(academy STRING, class STRING)

      > row format delimited fields terminated by ',';

OK

Time taken: 6.505 seconds

id，name是真实列，partition列academy和class是伪列

load数据：(此处直接load数据进partition，在hive 0.6之前的版本，必须先创建好partition，数据才能导入)

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp partition(academy='computer', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=computer, class=034)

OK

Time taken: 0.898 seconds

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp partition(academy='physics', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=physics, class=034)

OK

Time taken: 0.256 seconds

查看hive文件结构：

$ hadoop fs -ls  /user/hive/warehouse/student_tmp/

Found 2 items

drwxr-xr-x   - work supergroup          0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer

drwxr-xr-x   - work supergroup          0 2012-07-30 19:00 /user/hive/warehouse/student_tmp/academy=physics

$ hadoop fs -ls /user/hive/warehouse/student_tmp/academy=computer

Found 1 items

drwxr-xr-x   - work supergroup          0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer/class=034

查询数据：

hive> select * from student_tmp where academy='physics';

OK

1       zxm     physics 034

2       ljz     physics 034

3       cds     physics 034

4       mac     physics 034

5       android physics 034

6       symbian physics 034

7       wp      physics 034

Time taken: 0.139 seconds

以上是static partition的示例，static partition即由用户指定数据所在的partition，在load数据时，指定partition(academy='computer', class='034');

static partition常适用于使用处理时间作为partition key的例子。

但是，我们也常常会遇到需要向分区表中插入大量数据，并且插入前不清楚数据归宿的partition，此时，我们需要dynamic partition。

使用动态分区需要设置hive.exec.dynamic.partition参数值为true。

可以设置部分列为dynamic partition列，例如：partition(academy='computer', class);

也可以设置所有列为dynamic partition列，例如partition(academy, class);

设置所有列为dynamic partition列时，需要设置hive.exec.dynamic.partition.mode=nonstrict

需要注意的是，主分区为dynamic partition列，而副分区为static partition列是不允许的，例如partition(academy, class=‘034’);是不允许的

2、动态分区（dynamic partition）：

建表

hive> create table student(id INT, name STRING)

    > partitioned by(academy STRING, class STRING)

    > row format delimited fields terminated by ',';

OK

Time taken: 0.393 seconds

设置参数

hive> set hive.exec.dynamic.partition.mode=nonstrict;

hive> set hive.exec.dynamic.partition=true;

导入数据：

hive> insert overwrite table student partition(academy, class)

    > select id,name,academy,class from student_tmp

    > where class='034';

Total MapReduce jobs = 2

.........

OK

Time taken: 29.616 seconds

查询数据：

hive> select * from student where academy='physics';

OK

1       zxm     physics 034

2       ljz     physics 034

3       cds     physics 034

4       mac     physics 034

5       android physics 034

6       symbian physics 034

7       wp      physics 034

Time taken: 0.165 seconds

查看文件：

$ hadoop fs -ls /user/hive/warehouse/student/

Found 2 items

drwxr-xr-x   - work supergroup          0 2012-07-30 19:22 /user/hive/warehouse/student/academy=computer

drwxr-xr-x   - work supergroup          0 2012-07-30 19:22 /user/hive/warehouse/student/academy=physics

3、总结：

hive partition是通过将数据拆分成不同的partition放入不同的文件，从而减少查询操作时数据处理规模的手段。

例如，Hive Select查询中，如果没有建partition，则会扫描整个表内容，这样计算量巨大。如果我们在相应维度做了partition，则处理数据规模可能会大大减少。

|

4、附partition相关参数：

hive.exec.dynamic.partition（缺省false）：设置为true允许使用dynamic partition

hive.exec.dynamic.partition.mode（缺省strick）：设置dynamic partition模式（nostrict允许所有partition列都为dynamic partition，strict不允许）

hive.exec.max.dynamic.partitions.pernode （缺省100）：每一个mapreduce job允许创建的分区的最大数量，如果超过了这个数量就会报错

hive.exec.max.dynamic.partitions （缺省1000）：一个dml语句允许创建的所有分区的最大数量

hive.exec.max.created.files （缺省100000）：所有的mapreduce job允许创建的文件的最大数量

Hive分区表创建、分类的更多相关文章

Hive分区表创建，增加及删除
1.创建Hive分区表,按字段分区 CREATE TABLE test1 ( id bigint , create_time timestamp , user_id string) partition ...
Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶
Hive分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念.分区表指的是在创建表时指 ...
Hive分区表的导入与导出
最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中.毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容.如果哪里有错误或者疏漏 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
如何每日增量加载数据到Hive分区表
如何每日增量加载数据到Hive分区表 hadoop hive shell crontab 加载数据数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中每日加载前一天的日志 ...
hive 分区表
hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者多个伪列.意思是说在表的数据文件中实际上并不保存分区列的信息与 ...
2.6 hive分区表
一.背景 ######### 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件. Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成更小的数据集. ...
解决Spark读取Hive分区表出现Input path does not exist的问题
假设这里出错的表为test表. 现象 Hive读取正常,不会报错,Spark读取就会出现: org.apache.hadoop.mapred.InvalidInputException: Input ...
hive分区表
分区表创建 row format delimited fields terminated by ',';指明以逗号作为分隔符依靠插入表创建分区表从表sample_table选择满足分区条件的 ...

随机推荐

【React自制全家桶】九、Redux入手
一.React项目中为什么要用Redux 上图: 左图当使用纯React开发稍微大点的项目,因为React数据是瀑布式的,只能通过父子组件传递数据,所以实现关系不大的两React的组件之间的数据传递就 ...
Linux自动输入密码登录用户
每次进去Linux系统,都有切换root用户,输入密码很麻烦,所以就写了一个小脚本,自动输入密码,登录到root用户, 1,首先检查一些是否安装了expect root@wuzs:/home/wuzs ...
Mongdb、Mysql、Redis、Memcache场景
个人的一点理解,不确定一定准确,有不对处欢迎指出全部数据使用mysql存储,确保安全.准确和持久大数据.非安全性数据使用Mongodb 小数据.结构丰富.持久化(主从数据)使用redis 小数据. ...
C++中关于操作符的重载
C++实现了类的定义,也可以对类之间的操作符进行定义,又叫重载. 例如同类之间的加.减法,赋值等等操作. 具体看http://blog.csdn.net/zhy_cheng/article/deta ...
Nginx OCSP
#开启 vim /path/to/path/conf/nginx.conf ..... events{ ...... 省略..... } http { ..... server{ listen 44 ...
Python中的变量和作用域详解
Python中的变量和作用域详解 python中的作用域分4种情况: L:local,局部作用域,即函数中定义的变量: E:enclosing,嵌套的父级函数的局部作用域,即包含此函数的上级函数的局部 ...
'caching_sha2_password' cannot be loaded
Authentication plugin 'caching_sha2_password' cannot be loaded 下载新版(8+)mysql的时候,我使用的版本8.0.16,使用图形客户端 ...
解决anaconda安装cvxpy失败的方法
在Windows下安装凸优化包CVXPY 直接在anaconda prompt中输入pip install cvxpy经常会出现安装失败的情况,使用以下方法,亲测成功! 1. 下载所需的whl文件,请 ...
C++学习笔记-namespace
指标识符的各种可见范围.C++标准程序库中的所有标识符都被定义于一个名为std的namespace中关于iostream <iostream>和<iostream.h>格式不 ...
解决网页ICON图标无法显示的问题
第一步:检查下“<link rel="shortcut icon" href="http://www.bhcode.net/favicon.ico" ty ...

Hive分区表创建、分类

一、分区表创建与说明

二、静态与动态分区表

Hive分区表创建、分类的更多相关文章

随机推荐

热门专题