1、创建分区表

hive> create table weather_list(year int,data int) partitioned by (createtime string,area string) row format delimited fields terminated by ",";

修改表:

hive> alter table weather_list change data new_data int;
hive> alter table weather_list change year new_year int;

1.1、加载数据

hive> load data local inpath '/home/hadoop/sampler/w2.csv' into table weather_list partition(createtime='2011-01-01',area='bj');
Loading data to table busdata.weather_list partition (createtime=2011-01-01, area=bj)
OK
Time taken: 1.455 seconds
hive> load data local inpath '/home/hadoop/sampler/w3.csv' into table weather_list partition(createtime='2011-01-02',area='sc');
Loading data to table busdata.weather_list partition (createtime=2011-01-02, area=sc)
OK
Time taken: 1.394 seconds
hive> load data local inpath '/home/hadoop/sampler/w4.csv' into table weather_list partition(createtime='2011-01-03',area='tj');
Loading data to table busdata.weather_list partition (createtime=2011-01-03, area=tj)
OK
Time taken: 1.568 seconds
hive> load data local inpath '/home/hadoop/sampler/w4.csv' into table weather_list partition(createtime='2011-01-04',area='sz');
Loading data to table busdata.weather_list partition (createtime=2011-01-04, area=sz)
OK
Time taken: 1.209 seconds
hive> load data local inpath '/home/hadoop/sampler/w5.csv' into table weather_list partition(createtime='2011-01-05',area='gz');
Loading data to table busdata.weather_list partition (createtime=2011-01-05, area=gz)
OK
Time taken: 1.148 seconds
hive> load data local inpath '/home/hadoop/sampler/w5.csv' into table weather_list partition(createtime='2011-01-01',area='gz');
Loading data to table busdata.weather_list partition (createtime=2011-01-01, area=gz)
OK
Time taken: 1.278 seconds

partition的分区字段体现在存储目录上,与文件中的实际存储字段没有关系。

hive> dfs -ls /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz;
Found 6 items
-rw-r--r-- 1 hadoop supergroup 18018 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w1.csv
-rw-r--r-- 1 hadoop supergroup 18022 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w2.csv
-rw-r--r-- 1 hadoop supergroup 18028 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w3.csv
-rw-r--r-- 1 hadoop supergroup 18022 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w4.csv
-rw-r--r-- 1 hadoop supergroup 18027 2019-03-05 22:12 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w5.csv
-rw-r--r-- 1 hadoop supergroup 18027 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w5_copy_1.csv
hive> dfs -ls /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01;
Found 2 items
drwxr-xr-x - hadoop supergroup 0 2019-03-05 22:09 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=bj
drwxr-xr-x - hadoop supergroup 0 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz

1.2、显示分区信息

hive> show partitions weather_list;
OK
createtime=2010-01-01/area=bj
createtime=2010-01-01/area=sh
createtime=2010-01-01/area=yn
createtime=2010-01-02/area=sh
createtime=2011-01-01/area=bj
createtime=2011-01-01/area=gz
createtime=2011-01-02/area=sc
createtime=2011-01-03/area=tj
createtime=2011-01-04/area=sz
createtime=2011-01-05/area=gz
Time taken: 0.584 seconds, Fetched: 10 row(s)

1.3、分区列属于表的正式列,但是文件中没有存储分区列信息。分区列的信息是从目录中读取的。

hive> select * from weather_list where area='bj' limit 10;
OK
1999 71 2010-01-01 bj
1994 57 2010-01-01 bj
1995 33 2010-01-01 bj
1993 44 2010-01-01 bj
1994 99 2010-01-01 bj
1994 83 2010-01-01 bj
1995 59 2010-01-01 bj
1991 32 2010-01-01 bj
1992 74 2010-01-01 bj
2000 56 2010-01-01 bj
Time taken: 2.527 seconds, Fetched: 10 row(s)

2、分桶表

2.1、检查分桶属性,设置分桶属性是为了使用hive来自动分桶,因为分桶是根据分桶字段和数量进行hash取余,也可以自己分桶后导入。

hive> set hive.enforce.bucketing;
hive.enforce.bucketing=false hive> set hive.enforce.bucketing=true; hive> set hive.enforce.bucketing;
hive.enforce.bucketing=true

2.2、建立分桶表

hive> create table bucket_userinfo(userid int,username string) clustered by (userid) sorted by (userid asc) into 2 buckets row format delimited fields terminated by ",";

hive> desc formatted bucket_userinfo;
OK
# col_name data_type comment
userid int
username string # Detailed Table Information
Database: busdata
OwnerType: USER
Owner: hadoop
CreateTime: Wed Mar 06 23:11:37 CST 2019
LastAccessTime: UNKNOWN
Retention: 0
Location: hdfs://bigdata-senior01.home.com:9000/hive/warehouse/busdata.db/bucket_userinfo
Table Type: MANAGED_TABLE
Table Parameters:
COLUMN_STATS_ACCURATE {\"BASIC_STATS\":\"true\",\"COLUMN_STATS\":{\"userid\":\"true\",\"username\":\"true\"}}
SORTBUCKETCOLSPREFIX TRUE
bucketing_version 2
numFiles 0
numRows 0
rawDataSize 0
totalSize 0
transient_lastDdlTime 1551885097 # Storage Information
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: 2
Bucket Columns: [userid]
Sort Columns: [Order(col:userid, order:1)]
Storage Desc Params:
field.delim ,
serialization.format ,
Time taken: 0.379 seconds, Fetched: 34 row(s)

2.3、使用hive自动分桶,这种情况是针对源数据已经导入hive。

hive> insert overwrite table bucket_userinfo select userid,username from userinfo;

然后hive启动作业分桶导入数据,本例中分两个桶,所以最终会根据userid的奇偶生成两个文件。
hive> dfs -ls /hive/warehouse/busdata.db/bucket_userinfo;
Found 2 items
-rw-r--r-- 1 hadoop supergroup 106 2019-03-06 23:13 /hive/warehouse/busdata.db/bucket_userinfo/000000_0
-rw-r--r-- 1 hadoop supergroup 103 2019-03-06 23:13 /hive/warehouse/busdata.db/bucket_userinfo/000001_0
hive> dfs -cat /hive/warehouse/busdata.db/bucket_userinfo/000000_0;
2,xu.dm
4,user123
6,user2
8,user4
10,user6
14,user8
16,user10
18,user12
20,user14
22,soldier2
24,soldier4
hive> dfs -cat /hive/warehouse/busdata.db/bucket_userinfo/000001_0;
1,admin
3,myuser
5,user1
7,user3
9,user5
13,user7
15,user9
17,user11
19,user13
21,soldier1
23,soldier3
hive> select * from bucket_userinfo;
OK
2 xu.dm
4 user123
6 user2
8 user4
10 user6
14 user8
16 user10
18 user12
20 user14
22 soldier2
24 soldier4
1 admin
3 myuser
5 user1
7 user3
9 user5
13 user7
15 user9
17 user11
19 user13
21 soldier1
23 soldier3
Time taken: 0.238 seconds, Fetched: 22 row(s)

2.4、从外部文件导入数据,结果与上面一样

hive> create table bucket_userinfo2(userid int,username string) clustered by (userid) sorted by (userid) into 2 buckets row format delimited fields terminated by ",";
hive> load data local inpath '/home/hadoop/userinfo2.txt' into table bucket_userinfo2;
hive> select * from bucket_userinfo2;
OK
2 xu.dm
4 user123
6 user2
8 user4
10 user6
14 user8
16 user10
18 user12
20 user14
22 soldier2
24 soldier4
1 admin
3 myuser
5 user1
7 user3
9 user5
13 user7
15 user9
17 user11
19 user13
21 soldier1
23 soldier3
hive>dfs -ls /hive/warehouse/busdata.db/bucket_userinfo2;
Found 2 items
-rw-r--r-- 1 hadoop supergroup 106 2019-03-07 22:44 /hive/warehouse/busdata.db/bucket_userinfo2/000000_0
-rw-r--r-- 1 hadoop supergroup 103 2019-03-07 22:44 /hive/warehouse/busdata.db/bucket_userinfo2/000001_0

2.4、对桶数据采样

hive> select * from bucket_userinfo tablesample(bucket 1 out of 2 on userid);
OK
2 xu.dm
6 user2
10 user6
20 user14
3 myuser
7 user3
17 user11
19 user13
21 soldier1
Time taken: 0.077 seconds, Fetched: 9 row(s)

hive 分区表和分桶表的更多相关文章

  1. Hive 学习之路(五)—— Hive 分区表和分桶表

    一.分区表 1.1 概念 Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中.如 ...

  2. Hive 系列(五)—— Hive 分区表和分桶表

    一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...

  3. 入门大数据---Hive分区表和分桶表

    一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...

  4. 一起学Hive——创建内部表、外部表、分区表和分桶表及导入数据

    Hive本身并不存储数据,而是将数据存储在Hadoop的HDFS中,表名对应HDFS中的目录/文件.根据数据的不同存储方式,将Hive表分为外部表.内部表.分区表和分桶表四种数据模型.每种数据模型各有 ...

  5. Hive 教程(四)-分区表与分桶表

    在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹 ...

  6. Hive SQL之分区表与分桶表

    Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也 ...

  7. Hive(六)【分区表、分桶表】

    目录 一.分区表 1.本质 2.创建分区表 3.加载数据到分区表 4.查看分区 5.增加分区 6.删除分区 7.二级分区 8.分区表和元数据对应得三种方式 9.动态分区 二.分桶表 1.创建分桶表 2 ...

  8. 第2节 hive基本操作:11、hive当中的分桶表以及修改表删除表数据加载数据导出等

    分桶表 将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去 开启hive的桶表功能 set hive.enforce.bucketing= ...

  9. Hive分区表与分桶

    分区表 在Hive Select查询中.通常会扫描整个表内容,会消耗非常多时间做不是必需的工作. 分区表指的是在创建表时,指定partition的分区空间. 分区语法 create table tab ...

随机推荐

  1. 【LG4309】【BZOJ3173】[TJOI2013]最长上升子序列

    [LG4309][BZOJ3173][TJOI2013]最长上升子序列 题面 洛谷 BZOJ 题解 插入操作显然用平衡树就行了 然后因为后面的插入对前面的操作无影响 就直接在插入完的序列上用树状数组求 ...

  2. [Vani有约会]雨天的尾巴 线段树合并

    [Vani有约会]雨天的尾巴 LG传送门 线段树合并入门好题. 先别急着上线段树合并,考虑一下这题的暴力.一看就是树上差分,对于每一个节点统计每种救济粮的数量,再一遍dfs把差分的结果统计成答案.如果 ...

  3. DB知识点记录

    DB知识点记录 分页 SqlServer:ROW_NUMBER () over (ORDER BY ID) AS RN, MySql:limit Oracle:ROWNUM AS RN 数据表的基本结 ...

  4. python开发ftp服务器第一天(pyftpdlib)

    学习了大约快一个月的python,现在开始有意识做一些项目.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 据我了解,python现在更多的是用于自动化运维方面, ...

  5. 前端--初识jQuery

    jQuery 一.jQuery介绍 1.jQuery是一个轻量级.兼容多浏览器的js库. 2.jQuery使用户能够更方便地处理HTML Document,Events,实现动画效果,方便的进行Aja ...

  6. jmeter接口测试实例:带参数、带token

      测试内容简介: 1.get请求,无参数 2.get请求,参数为第一条响应中的id 3.get请求,带token 结构图:     下面进行详解: 一.添加cookie管理器等     1.添加ht ...

  7. 原生WebGL场景中绘制多个圆锥圆柱

    前几天解决了原生WebGL开发中的一个问题,就是在一个场景中绘制多个几何网格特征不同的模型,比如本文所做的绘制多个圆锥和圆柱在同一个场景中,今天抽空把解决的办法记录下来,同时也附上代码.首先声明,圆柱 ...

  8. “取件帮”微信小程序宣传视频链接及内容介绍

    1.视频链接 视频上传至优酷自频道,地址链接:http://v.youku.com/v_show/id_XMzg2NTM3OTc5Ng==.html?spm=a2hzp.8253869.0.0 2.视 ...

  9. Java 学习笔记 ------第三章 基础语法

    本章学习目标: 认识类型与变量 学习运算符的基本使用 了解类型转换细节 运用基本流程语法 一.类型(基本类型) 所谓基本类型,就是在使用时,得考虑一下数据用多少内存长度存比较经济,利用程序语法告诉JV ...

  10. 阿帕奇web服务器下载部署安装运行

    链接: https://jingyan.baidu.com/album/d8072ac47baf0eec95cefdca.html?picindex=4 1.apache服务安装成功可是启动失败“wi ...