partition是hive提供的一种机制:用户通过指定一个或多个partition key,决定数据存放方式,进而优化数据的查询

一个表可以指定多个partition key,每个partition在hive中以文件夹的形式存在。



实例(static partition):

编辑文件:/home/work/data/test3.txt; /home/work/data/test4.txt;

$ cat /home/work/data/test3.txt

1,zxm

2,ljz

3,cds

4,mac

5,android

6,symbian

7,wp



$ cat /home/work/data/test4.txt

8,zxm

9,ljz

10,cds

11,mac

12,android

13,symbian

14,wp

建表:

hive> create table student_tmp(id INT, name STRING)

> partitioned by(academy STRING, class STRING)

> row format delimited fields terminated by ',';

OK

Time taken: 6.505 seconds

id,name是真实列,partition列academy和class是伪列



load数据:(此处直接load数据进partition,在hive 0.6之前的版本,必须先创建好partition,数据才能导入)

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp
partition(academy='computer', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=computer, class=034)

OK

Time taken: 0.898 seconds

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp
partition(academy='physics', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=physics, class=034)

OK

Time taken: 0.256 seconds



查看hive文件结构:

$ hadoop fs -ls /user/hive/warehouse/student_tmp/

Found 2 items

drwxr-xr-x - work supergroup 0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer

drwxr-xr-x - work supergroup 0 2012-07-30 19:00 /user/hive/warehouse/student_tmp/academy=physics

$ hadoop fs -ls /user/hive/warehouse/student_tmp/academy=computer

Found 1 items

drwxr-xr-x - work supergroup 0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer/class=034



查询数据:

hive> select * from student_tmp where academy='physics';

OK

1 zxm physics 034

2 ljz physics 034

3 cds physics 034

4 mac physics 034

5 android physics 034

6 symbian physics 034

7 wp physics 034

Time taken: 0.139 seconds



以上是static partition的示例,static partition即由用户指定数据所在的partition,在load数据时,指定partition(academy='computer', class='034');

static partition常适用于使用处理时间作为partition key的例子。

但是,我们也常常会遇到需要向分区表中插入大量数据,并且插入前不清楚数据归宿的partition,此时,我们需要dynamic partition。

使用动态分区需要设置hive.exec.dynamic.partition参数值为true。

可以设置部分列为dynamic partition列,例如:partition(academy='computer', class);

也可以设置所有列为dynamic partition列,例如partition(academy, class);

设置所有列为dynamic partition列时,需要设置hive.exec.dynamic.partition.mode=nonstrict

需要注意的是,主分区为dynamic partition列,而副分区为static partition列是不允许的,例如partition(academy, class=‘034’);是不允许的

示例(dynamic partition):

建表

hive> create table student(id INT, name STRING)

> partitioned by(academy STRING, class STRING)

> row format delimited fields terminated by ',';

OK

Time taken: 0.393 seconds



设置参数

hive> set hive.exec.dynamic.partition.mode=nonstrict;

hive> set hive.exec.dynamic.partition=true;



导入数据:

hive> insert overwrite table student partition(academy, class)

> select id,name,academy,class from student_tmp

> where class='034';

Total MapReduce jobs = 2

.........

OK

Time taken: 29.616 seconds



查询数据:

hive> select * from student where academy='physics';

OK

1 zxm physics 034

2 ljz physics 034

3 cds physics 034

4 mac physics 034

5 android physics 034

6 symbian physics 034

7 wp physics 034

Time taken: 0.165 seconds



查看文件:

$ hadoop fs -ls /user/hive/warehouse/student/

Found 2 items

drwxr-xr-x - work supergroup 0 2012-07-30 19:22 /user/hive/warehouse/student/academy=computer

drwxr-xr-x - work supergroup 0 2012-07-30 19:22 /user/hive/warehouse/student/academy=physics

总结:

hive partition是通过将数据拆分成不同的partition放入不同的文件,从而减少查询操作时数据处理规模的手段。

例如,Hive Select查询中,如果没有建partition,则会扫描整个表内容,这样计算量巨大。如果我们在相应维度做了partition,则处理数据规模可能会大大减少。

|

附partition相关参数:

hive.exec.dynamic.partition(缺省false): 设置为true允许使用dynamic partition

hive.exec.dynamic.partition.mode(缺省strick):设置dynamic partition模式(nostrict允许所有partition列都为dynamic partition,strict不允许)

hive.exec.max.dynamic.partitions.pernode (缺省100):每一个mapreduce job允许创建的分区的最大数量,如果超过了这个数量就会报错

hive.exec.max.dynamic.partitions (缺省1000):一个dml语句允许创建的所有分区的最大数量

hive.exec.max.created.files (缺省100000):所有的mapreduce job允许创建的文件的最大数量



reference:

Dynamic Partitions

hive中简单介绍分区表(partition table),含动态分区(dynamic partition)与静态分区(static partition)

hive parition的使用,分dynamic和static两种的更多相关文章

  1. POJ 1182食物链(分集合以及加权两种解法) 种类并查集的经典

    题目链接:http://icpc.njust.edu.cn/Problem/Pku/1182/ 题意:给出动物之间的关系,有几种询问方式,问是真话还是假话. 定义三种偏移关系: x->y 偏移量 ...

  2. Java调用外部类定义的方法(Static与无Static两种)

    首先定义方法 public class Dy { public int Add(int x,int y){ //定义Add(),该方法没有被static修饰 return x+y; } public ...

  3. Hive动态分区和分桶(八)

    Hive动态分区和分桶 1.Hive动态分区 1.hive的动态分区介绍 ​ hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在 ...

  4. hive的排序,分組练习

    hive的排序,分組练习 数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...

  5. Hive基础语法5分钟速览

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过 ...

  6. hive:(group by, having;order by)的使用;group by+多个字段,以及wiki说的group by两种使用限制验证

    hive> select * from app_data_stats_historical where os='1' group by dt limit 100; 出现结果如下: 2014-01 ...

  7. Spark:DataFrame批量导入Hbase的两种方式(HFile、Hive)

    Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...

  8. java中线程分两种,守护线程和用户线程。

    java中线程分为两种类型:用户线程和守护线程. 通过Thread.setDaemon(false)设置为用户线程: 通过Thread.setDaemon(true)设置为守护线程. 如果不设置次属性 ...

  9. 华为 1.static有什么用途?(请至少说明两种)

    1.static有什么用途?(请至少说明两种) 1)在函数体,一个被声明为静态的变量在这一函数被调用过程中维持其值不变. 2) 在模块内(但在函数体外),一个被声明为静态的变量可以被模块内所用函数访问 ...

随机推荐

  1. MFC误报内存泄露的修复

    在debug状态退出程序的时候,VS会在输出窗口列出可能的内存泄露的地方. MFC中使用DEBUG_NEW能够更方便的定位泄露的地点.但假如MFC的dll释放""过早"& ...

  2. Leetcode难度表及解题汇总

    Leetcode难度表及解题汇总 参考网上一份题目难度表,以及本人的解题. Id Question Difficulty Frequency Data Structures Algorithms Bl ...

  3. Gradle 1.12用户指南翻译——第四十五章. 应用程序插件

    本文由CSDN博客貌似掉线翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...

  4. Dynamics CRM2013 Form利用window.location.reload()进行全局刷新带来的问题及解决办法

    CRM2013以后,表单的保存后变成了局部刷新而非全局刷新,但很多情况下我们需要刷新整个页面,通过刷新页面来使脚本执行或者业务规则执行来实现某些业务效果,一般我们会使用window.location. ...

  5. UIKit视图动画的微扩展

    大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 好久没写blog了,还不快快写来- ;] 我们知道在UIKit ...

  6. SQL语言四大类

    SQL语言四大类   SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL. 数据查询语言DQL   数据查询语言DQL基本结构是由SELECT子句, ...

  7. JAVA面向对象-----值交换(基本数据类型 数组类型 对象的值 字符串的)

    JAVA面向对象-–值交换 基本数据类型交换 数组类型交换 对象的值交换 字符串的值交换 恩,没错,又是贴图,请大家见谅,我也是为了多写几个文章,请大家谅解. 字符串的值交换: 交换值失败. 这个文章 ...

  8. SSH深度历险(七) 剖析SSH核心原理(一)

    接触SSH有一段时间了,但是对于其原理,之前说不出来莫模模糊糊(不能使用自己的语言描述出来的就是没有掌握),在视频和GXPT学习,主要是实现了代码,一些原理性的内容还是欠缺的,这几天我自己也一直在反问 ...

  9. OpenCV计算物体的重心坐标(2值图像)

    效果图: 代码: // FindGravity.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream& ...

  10. (六十八)使用XMPPFramework登录

    按照XMPPFramework的官方样例,应该把登录代码放置在AppDelegate中,并且让注销成为私有方法. XMPPFramework进行登录的步骤如下: ①连接主机,并且发送JID ②如果连接 ...