hive 分区表和分桶表

1、创建分区表

hive> create table weather_list(year int,data int) partitioned by (createtime string,area string) row format delimited fields terminated by ",";

修改表：

hive> alter table weather_list change data new_data int;

hive> alter table weather_list change year new_year int;

1.1、加载数据

hive> load data local inpath '/home/hadoop/sampler/w2.csv' into table weather_list partition(createtime='2011-01-01',area='bj');

Loading data to table busdata.weather_list partition (createtime=2011-01-01, area=bj)

OK

Time taken: 1.455 seconds

hive> load data local inpath '/home/hadoop/sampler/w3.csv' into table weather_list partition(createtime='2011-01-02',area='sc');

Loading data to table busdata.weather_list partition (createtime=2011-01-02, area=sc)

OK

Time taken: 1.394 seconds

hive> load data local inpath '/home/hadoop/sampler/w4.csv' into table weather_list partition(createtime='2011-01-03',area='tj');

Loading data to table busdata.weather_list partition (createtime=2011-01-03, area=tj)

OK

Time taken: 1.568 seconds

hive> load data local inpath '/home/hadoop/sampler/w4.csv' into table weather_list partition(createtime='2011-01-04',area='sz');

Loading data to table busdata.weather_list partition (createtime=2011-01-04, area=sz)

OK

Time taken: 1.209 seconds

hive> load data local inpath '/home/hadoop/sampler/w5.csv' into table weather_list partition(createtime='2011-01-05',area='gz');

Loading data to table busdata.weather_list partition (createtime=2011-01-05, area=gz)

OK

Time taken: 1.148 seconds

hive> load data local inpath '/home/hadoop/sampler/w5.csv' into table weather_list partition(createtime='2011-01-01',area='gz');

Loading data to table busdata.weather_list partition (createtime=2011-01-01, area=gz)

OK

Time taken: 1.278 seconds

partition的分区字段体现在存储目录上，与文件中的实际存储字段没有关系。

hive> dfs -ls /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz;

Found 6 items

-rw-r--r--   1 hadoop supergroup      18018 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w1.csv

-rw-r--r--   1 hadoop supergroup      18022 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w2.csv

-rw-r--r--   1 hadoop supergroup      18028 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w3.csv

-rw-r--r--   1 hadoop supergroup      18022 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w4.csv

-rw-r--r--   1 hadoop supergroup      18027 2019-03-05 22:12 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w5.csv

-rw-r--r--   1 hadoop supergroup      18027 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz/w5_copy_1.csv

hive> dfs -ls /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01;

Found 2 items

drwxr-xr-x   - hadoop supergroup          0 2019-03-05 22:09 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=bj

drwxr-xr-x   - hadoop supergroup          0 2019-03-05 22:14 /hive/warehouse/busdata.db/weather_list/createtime=2011-01-01/area=gz

1.2、显示分区信息

hive> show partitions weather_list;

OK

createtime=2010-01-01/area=bj

createtime=2010-01-01/area=sh

createtime=2010-01-01/area=yn

createtime=2010-01-02/area=sh

createtime=2011-01-01/area=bj

createtime=2011-01-01/area=gz

createtime=2011-01-02/area=sc

createtime=2011-01-03/area=tj

createtime=2011-01-04/area=sz

createtime=2011-01-05/area=gz

Time taken: 0.584 seconds, Fetched: 10 row(s)

1.3、分区列属于表的正式列，但是文件中没有存储分区列信息。分区列的信息是从目录中读取的。

hive> select * from weather_list where area='bj' limit 10;

OK

1999    71    2010-01-01    bj

1994    57    2010-01-01    bj

1995    33    2010-01-01    bj

1993    44    2010-01-01    bj

1994    99    2010-01-01    bj

1994    83    2010-01-01    bj

1995    59    2010-01-01    bj

1991    32    2010-01-01    bj

1992    74    2010-01-01    bj

2000    56    2010-01-01    bj

Time taken: 2.527 seconds, Fetched: 10 row(s)

2、分桶表

2.1、检查分桶属性，设置分桶属性是为了使用hive来自动分桶，因为分桶是根据分桶字段和数量进行hash取余，也可以自己分桶后导入。

hive> set hive.enforce.bucketing;

hive.enforce.bucketing=false

hive> set hive.enforce.bucketing=true;

hive> set hive.enforce.bucketing;

hive.enforce.bucketing=true

2.2、建立分桶表

hive> create table bucket_userinfo(userid int,username string) clustered by (userid) sorted by (userid asc) into 2 buckets row format delimited fields terminated by ",";

hive> desc formatted bucket_userinfo;

OK

# col_name                data_type               comment

userid                  int

username                string                                      

# Detailed Table Information

Database:               busdata

OwnerType:              USER

Owner:                  hadoop

CreateTime:             Wed Mar 06 23:11:37 CST 2019

LastAccessTime:         UNKNOWN

Retention:              0

Location:               hdfs://bigdata-senior01.home.com:9000/hive/warehouse/busdata.db/bucket_userinfo

Table Type:             MANAGED_TABLE

Table Parameters:

    COLUMN_STATS_ACCURATE    {\"BASIC_STATS\":\"true\",\"COLUMN_STATS\":{\"userid\":\"true\",\"username\":\"true\"}}

    SORTBUCKETCOLSPREFIX    TRUE

    bucketing_version       2

    numFiles                0

    numRows                 0

    rawDataSize             0

    totalSize               0

    transient_lastDdlTime    1551885097          

# Storage Information

SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

InputFormat:            org.apache.hadoop.mapred.TextInputFormat

OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

Compressed:             No

Num Buckets:            2

Bucket Columns:         [userid]

Sort Columns:           [Order(col:userid, order:1)]

Storage Desc Params:

    field.delim             ,

    serialization.format    ,

Time taken: 0.379 seconds, Fetched: 34 row(s)

2.3、使用hive自动分桶，这种情况是针对源数据已经导入hive。

hive> insert overwrite table bucket_userinfo select userid,username from userinfo;

然后hive启动作业分桶导入数据，本例中分两个桶，所以最终会根据userid的奇偶生成两个文件。

hive> dfs -ls /hive/warehouse/busdata.db/bucket_userinfo;

Found 2 items

-rw-r--r--   1 hadoop supergroup        106 2019-03-06 23:13 /hive/warehouse/busdata.db/bucket_userinfo/000000_0

-rw-r--r--   1 hadoop supergroup        103 2019-03-06 23:13 /hive/warehouse/busdata.db/bucket_userinfo/000001_0

hive> dfs -cat /hive/warehouse/busdata.db/bucket_userinfo/000000_0;

2,xu.dm

4,user123

6,user2

8,user4

10,user6

14,user8

16,user10

18,user12

20,user14

22,soldier2

24,soldier4

hive> dfs -cat /hive/warehouse/busdata.db/bucket_userinfo/000001_0;

1,admin

3,myuser

5,user1

7,user3

9,user5

13,user7

15,user9

17,user11

19,user13

21,soldier1

23,soldier3

hive> select * from bucket_userinfo;

OK

2    xu.dm

4    user123

6    user2

8    user4

10    user6

14    user8

16    user10

18    user12

20    user14

22    soldier2

24    soldier4

1    admin

3    myuser

5    user1

7    user3

9    user5

13    user7

15    user9

17    user11

19    user13

21    soldier1

23    soldier3

Time taken: 0.238 seconds, Fetched: 22 row(s)

2.4、从外部文件导入数据，结果与上面一样

hive> create table bucket_userinfo2(userid int,username string) clustered by (userid) sorted by (userid) into 2 buckets row format delimited fields terminated by ",";

hive> load data local inpath '/home/hadoop/userinfo2.txt' into table bucket_userinfo2;

hive> select * from bucket_userinfo2;

OK

2    xu.dm

4    user123

6    user2

8    user4

10    user6

14    user8

16    user10

18    user12

20    user14

22    soldier2

24    soldier4

1    admin

3    myuser

5    user1

7    user3

9    user5

13    user7

15    user9

17    user11

19    user13

21    soldier1

23    soldier3

hive>dfs -ls /hive/warehouse/busdata.db/bucket_userinfo2;

Found 2 items

-rw-r--r--   1 hadoop supergroup        106 2019-03-07 22:44 /hive/warehouse/busdata.db/bucket_userinfo2/000000_0

-rw-r--r--   1 hadoop supergroup        103 2019-03-07 22:44 /hive/warehouse/busdata.db/bucket_userinfo2/000001_0

2.4、对桶数据采样

hive> select * from bucket_userinfo tablesample(bucket 1 out of 2 on userid);

OK

2    xu.dm

6    user2

10    user6

20    user14

3    myuser

7    user3

17    user11

19    user13

21    soldier1

Time taken: 0.077 seconds, Fetched: 9 row(s)

hive 分区表和分桶表的更多相关文章

Hive 学习之路（五）—— Hive 分区表和分桶表
一.分区表 1.1 概念 Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中.如 ...
Hive 系列（五）—— Hive 分区表和分桶表
一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...
入门大数据---Hive分区表和分桶表
一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...
一起学Hive——创建内部表、外部表、分区表和分桶表及导入数据
Hive本身并不存储数据,而是将数据存储在Hadoop的HDFS中,表名对应HDFS中的目录/文件.根据数据的不同存储方式,将Hive表分为外部表.内部表.分区表和分桶表四种数据模型.每种数据模型各有 ...
Hive 教程(四)-分区表与分桶表
在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念分区表在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹 ...
Hive SQL之分区表与分桶表
Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也 ...
Hive(六)【分区表、分桶表】
目录一.分区表 1.本质 2.创建分区表 3.加载数据到分区表 4.查看分区 5.增加分区 6.删除分区 7.二级分区 8.分区表和元数据对应得三种方式 9.动态分区二.分桶表 1.创建分桶表 2 ...
第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等
分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing= ...
Hive分区表与分桶
分区表在Hive Select查询中.通常会扫描整个表内容,会消耗非常多时间做不是必需的工作. 分区表指的是在创建表时,指定partition的分区空间. 分区语法 create table tab ...

随机推荐

19、Java并发编程：线程间协作的两种方式：wait、notify、notifyAll和Condition
Java并发编程:线程间协作的两种方式:wait.notify.notifyAll和Condition 在前面我们将了很多关于同步的问题,然而在现实中,需要线程之间的协作.比如说最经典的生产者-消费者 ...
Drupal学习(19) 使用jQuery
本节学习如果在Drupal里交互使用jQuery. jQuery在Drupal是内置支持的.存在根目录的misc目录中. 当调用drupal_add_js方法,会自动加载jQuery. 在Drupal ...
html查漏补缺之meta标签
什么是meta标签? meta标签是html标记head区的一个关键标签,它位于HTML文档的<head>和<title>之间(有些也不是在<head>和<t ...
centos7 安装rabbitmq3.4.1-1
安装环境:centos7版本一.rabbitmq3.4.1-1安装环境配置: 安装erlang 1.创建Yum源 #创建yum源 sudo vi /etc/yum.repos.d/rabbitmq- ...
Phaser3 屏幕适配iPhoneX、iPhoneXs的坑 -- JavaScript Html5 游戏开发
PhaserJS 坑:在config内不要把 width 设为 window.innnerWidth在config内不要把 width 设为 window.innnerWidth在config内不 ...
NO--10今天带大家回忆回忆“闭包”吧！
对于‘闭包,我相信很多人都掉进过这个坑里,也相信很多人没能详细的理解这个问题,今天带大家再次走进闭包: 写这篇文章时的心情是十分忐忑的,因为对于我们今天的主角:闭包,很多小伙伴都写过关于它的文章,相信 ...
2.0 flume、sqoop、oozie/Azkaban
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出.任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便 ...
Vue-lazyload 的使用
Vue 项目使用 Vue-lazyload 做图片懒加载. 下载下载 Vue-lazyload 的包NPM包 npm install vue-lazyload --save 引入在项目 main. ...
Codeforces Round #553 (Div. 2) C
C. Problem for Nazar time limit per test 1 second memory limit per test 256 megabytes input standard ...
电脑提示‘您需要来自Administration的权限才能对此文件夹进行更改’怎么删除文件
电脑提示'您需要来自Administration的权限才能对此文件夹进行更改'怎么删除文件应该怎么做 win7系统需要定期删除一些无用的文件,扩大内存空间,但是在删除文件的时候弹出提示"您 ...

hive 分区表和分桶表

hive 分区表和分桶表的更多相关文章

随机推荐

热门专题