1. Hive的分区作用

命令：创建分区

create table t_sz_part(id int, name string)

partitioned by (country string)

row format delimited

fields terminated by ','

往分区中插入数据：load data local inpath '/home/hadoop/sz.dat' into table t_sz_part partition(country = 'China')；

说明：首先，创建分区表的时候，需要通过关键字partitioned by (name string) 声明该表是分区表，并且是按照字段name进行分区的；其次，向分区表导入数据的时候，要通过关键字partition(country='China')显示声明数据要导入到表的哪个分区中。所谓分区，这是将满足某些条件的记录打包，做个记号，在查询时提高效率，相当于按文件夹对文件进行分类，文件夹名可类比分区字段。这个分区字段形式上存在于数据表中，在查询时会显示到客户端上，但并不真正在存储在数据表文件中，是所谓伪列。所以，千万不要以为是对属性表中真正存在的列按照属性值的异同进行分区。比如上面的分区依据的列country并不真正的存在于数据表中，是我们为了方便管理添加的一个伪列，这个列的值也是我们人为规定的，不是从数据表中读取之后根据值的不同将其分区。我们并不能按照某个数据表中真实存在的列，如id来分区。

2. Hive的分桶作用

命令：创建分桶

create table t_bluk(id string, name string)

clustered by(id) sort by (id) into 4 buckets;

解析：clustered by(id) 意思是根据id分成4个桶，并且桶内按照id排序。

上述命令执行后，将会在相应的hdfs文件目录下创建四个子目录，如：

可能遇到的问题：当使用命令“insert into t_buck select * from other”时，出现t_buck目录下并没有四个子目录，只有一个子目录，需要如下操作：

① 设置如下变量：

#设置变量,设置分桶为true, 设置reduce数量是分桶的数量个数

set hive.enforce.bucketing = true;

set mapreduce.job.reduces=4;

② 使用“insert ... select ...”命令向t_buck插入数据才会最终生成四个分区。

额外说明：insert into t_buck select id,name from t_p distribute by (id) sort by (id);

distribute by (id)指定分区字段； sort by (id) 指定排序字段

当排序和分桶的字段相同的时候可以使用 distribute by (sno) sort by (sno asc) 或Cluster by(字段)。cluster by等同于分桶+排序(sort)

分区和分桶的区别：分区依据的是伪列，分桶则是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值的hash值进行区分，如要按照name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件。与分区不同的是，分区依据的不是真实数据表文件中的列，而是我们指定的伪列，但是分桶是依据数据表中真实的列而不是伪列。所以在指定分区依据的列的时候要指定列的类型，因为在数据表文件中不存在这个列，相当于新建一个列。而分桶依据的是表中已经存在的列，这个列的数据类型显然是已知的，所以不需要指定列的类型。

3. Hive的join操作解析

稍后补上

Hive基本命令解析的更多相关文章

[Hive]HiveSQL解析原理
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用.美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析.Hive的稳定性和 ...
hive中解析json数组
-- hive中解析json数组 select t1.status ,substr(ss.col,,) as col ,t3.evcId ,t3.evcLicense ,t3.evcAddress , ...
Hive部分函数解析
Hive部分函数解析 Hive里的exists ,in ,not exists ,not in 相关函数表数据准备: 1.选择指定数据库 eg: use bg_database1; 2. 创建表 ...
hive源代码解析之一hive主函数入口
hive其实做的就是解析一条sql然后形成到mapreduce任务,就是一个代码解释器.hive源代码本身就可以分为ql/metasotre/service/serde 这几块:其中对于Hive来说 ...
hive 元数据解析
在使用Hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具. 要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在 ...
Hive Hadoop 解析 orc 文件
解析 orc 格式为 json 格式: ./hive --orcfiledump -d <hdfs-location-of-orc-file> 把解析的 json 写入到文件 ./hi ...
如何在 Apache Hive 中解析 Json 数组
我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs).我们从这些内置的 ...
hive sql 解析json
在hive中会有很多数据是用json格式来存储的,而我们用数据的时候又必须要将json格式的数据解析成为正常的数据,今天我们就来聊聊hive中是如何解析json数据的. 下面这张表就是json格式的表 ...
Hive基本命令整理
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with t ...

随机推荐

django.db.utils.DataError: (1406, "Data too long for column 'gender' at row 1")
报错现象在使用 django 创建超级用户的时候提示报错 Password (again): ytyt521521 Traceback (most recent call last): File ...
自定义chromium浏览器
自定义chromium浏览器来源 https://chaopeng.me/blog/2018/08/17/how-to-develop-full-homebrew-browser.html 最近有 ...
windows刷新本机DNS缓存
ipconfig /flushdns
【UOJ#177】欧拉回路
[UOJ#177]欧拉回路题面 UOJ 题解首先图不连通就没啥好搞的了. 对于无向图而言,每个点度数为偶数. 对于有向图而言,每个点入度等于出度. 然后就是一本通上有的做法,直接\(dfs\)一遍 ...
html内嵌框架
html内嵌框架 <iframe>标签会创建包含另外一个html文件的内联框架(即行内框架),src属性来定义另一个html文件的引用地址,frameborder属性定义边框,scroll ...
JS中的continue，break，return的区别
关于continue.break.return的用法区别早在大一C语言学习中研究过,这里单独拿出来,总结一下. 还是来点实在的吧,上代码 <!DOCTYPE html PUBLIC " ...
队列模式&主题模式
# RabbitMQ 消息中间件 **Advanced Message Queuing Protocol (高级消息队列协议** The Advanced Message Queuing Protoc ...
（1）Phonics自然拼读英语动画 Fun with Phonics 国际主流英语教学法
Phonics(拼音英语)是目前国际主流的英语教学法,我国香港和台湾地区2000年就已引进此教学法,并已进入大规模推广和普及阶段.它之所以风靡全球,是因为这种教学法简单高效,符合人类学习语言的规律,尤 ...
hdu5306 Explosion
题目链接题意有n个房间,每个房间里面有若干把钥匙,每把钥匙可以打开对应的一扇门.如果手中没有钥匙,就要随机轰炸一个房间来打开这个房间.如果有钥匙,就要去打开这些房间.问期望轰炸次数是多少. 思路 ...
Django(十七)文件上传
http://www.cnblogs.com/wupeiqi/articles/5703697.html - 文件上传 - 普通上传 - 自定义页面上传按钮 ...

Hive基本命令解析