Hive分区表

在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。

Hive可以对数据按照某列或者某些列进行分区管理，所谓分区我们可以拿下面的例子进行解释。
当前互联网应用每天都要存储大量的日志文件，几G、几十G甚至更大都是有可能。存储日志，其中必然有个属性是日志产生的日期。在产生分区时，就可以按照日志产生的日期列进行划分。把每一天的日志当作一个分区。
将数据组织成分区，主要可以提高数据的查询速度。至于用户存储的每一条记录到底放到哪个分区，由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。

实现细节

1、一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。
2、表和列名不区分大小写。
3、分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。

语法

1. 创建一个分区表，以 ds 为分区列：

create table invites (id int, name string) partitioned by (ds string) row format delimited fields terminated by '\t' stored as textfile;

2. 将数据添加到时间为 2013-08-16 这个分区中：

load data local inpath '/home/hadoop/Desktop/data.txt' overwrite into table invites partition (ds='2013-08-16');

3. 将数据添加到时间为 2013-08-20 这个分区中：

load data local inpath '/home/hadoop/Desktop/data.txt' overwrite into table invites partition (ds='2013-08-20');

4. 从一个分区中查询数据：

select * from invites where ds ='2013-08-12';

5. 往一个分区表的某一个分区中添加数据：

insert overwrite table invites partition (ds='2013-08-12') select id,max(name) from test group by id;

可以查看分区的具体情况，使用命令：

hadoop fs -ls /home/hadoop.hive/warehouse/invites

如果想在 eslipse 下面看效果，也是需要开启 hadoop 的， start-all.sh 。

Hive 桶

对于每一个表（table）或者分区，Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处，比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

1. 创建带桶的 table ：

create table bucketed_user(id int,name string) clustered by (id) sorted by(name) into 4 buckets row format delimited fields terminated by '\t' stored as textfile;

2. 强制多个 reduce 进行输出：

set hive.enforce.bucketing=true;

3. 往表中插入数据：

insert overwrite table bucketed_user select * from test;

4. 查看表的结构，会发现当前表下有四个文件：

dfs -ls /home/hadoop/hive/warehouse/bucketed_user;

5. 读取数据，看没一个文件的数据：

dfs -cat /home/hadoop/hive/warehouse/bucketed_user/000000_0;

桶使用 hash 来实现，所以每个文件拥有的数据的个数都有可能不相等。

6. 对桶中的数据进行采样：

select * from bucketed_user tablesample(bucket 1 out of 4 on name);

桶的个数从 1 开始计数，前面的查询从 4 个桶中的第一个桶获取数据。其实就是四分之一。

7. 查询一半返回的桶数：

select * from bucketed_user tablesample(bucket 1 out of 2 on name);

Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶的更多相关文章

Hadoop: the definitive guide 第三版拾遗第十二章之Hive初步
Hive简介 Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制 ...
Hadoop: the definitive guide 第三版拾遗第十章之Pig
概述: Pig的安装很简单,注意一下几点: 1.设置系统环境变量: export PIG_HOME=.../pig-x.y.z export PATH=$PATH:$PIG_HOME/bin 设置完成 ...
Hadoop: the definitive guide 第三版拾遗第十三章之HBase起步
指南上这一章的开篇即提出:HBase是一个分布式的.面向列的开源数据库.如果需要实时的随机读/写超大规模数据集,HBase无疑是一个好的选择. 简介 HBase 是一个高可靠性.高性能.面向列.可伸缩 ...
Hadoop: the definitive guide 第三版拾遗第四章
第四章中提到了通过CompressionCodec对streams进行压缩和解压缩,并提供了示例程序: 输入:标准输入流输出:压缩后的标准输出流 // cc StreamCompressor A p ...
python cookbook第三版学习笔记十二：类和对象(三)创建新的类或实例属性
先介绍几个类中的应用__getattr__,__setattr__,__get__,__set__,__getattribute__,. __getattr__:当在类中找不到attribute的时候 ...
C primer plus 第五版十二章习题
看完C prime plus(第五版)第十二章,随带完成了后面的习题. 1.不使用全局变量,重写程序清单12.4的程序. 先贴出12.4的程序,方便对照: /* global.c --- 使用外部变量 ...
Hadoop – The Definitive Guide Examples,,IntelliJ
IntelliJ Project for Building Hadoop – The Definitive Guide Examples http://vichargrave.com/intellij ...
Gradle 1.12用户指南翻译——第三十二章. JDepend 插件
本文由CSDN博客万一博主翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
sql 入门经典（第五版） Ryan Stephens 学习笔记（第六，七，八，九，十章，十一章，十二章）
第六章: 管理数据库事务事务是由第五章数据操作语言完成的 DML ,是对数据库锁做的一个操作或者修改. 所有事务都有开始和结束事务可以被保存和撤销如果事务在中途失败,事务中的任何部分都不 ...

随机推荐

Android模仿微信语音聊天功能
项目效果如下: 项目目录结构如下: 代码如下: AudioManager.java import java.io.File; import java.io.IOException; import ja ...
PooledDataSource--mybatis-3-mybatis-3.2.3
org.apache.ibatis.executor.SimpleExecutor public <E> List<E> doQuery(MappedStatement ms, ...
给一个int型整数，如何将这个整数的奇偶位互换
题目: 假设一个8为整数是(10101100)b那么奇偶互换之后就是(01011100)b.假设机器是32位的注意: 8位中最低位开始数,最低位是第0位,是偶数为,次低位时第1位,是偶数位. 做法: ...
Servlet实现Session
(1)首先看一下项目的结构是在tomcat--webaps下的myWebSites项目在myWebSites下有仅仅有WEB-INF目录在WEB-INF目录中有一下目录(在classes目录 ...
[SQL学习笔记][用exists代替全称量词 ]
学习sql的必经问题. 学生表student (id学号 Sname姓名 Sdept所在系) 课程表Course (crscode课程号 name课程名) 学生选课表transcript (studi ...
手机版和PC版识别
1.C#通过User-Agent 处理 //判断是否来自手机终端 public bool checkMoble() { string userAgent = Request.Headers[&qu ...
(转)实例详解CSS中position的fixed属性使用
关于fixed属性,在什么情况下需要用,怎么用,首先,我们应该先了解下fixed属性的说明:fixed总是以body为定位时的对象,总是根据浏览器的窗口来进行元素的定位,通过"left&qu ...
C# 十进制和十六进制转换
转至:http://www.cnblogs.com/fwind/archive/2012/04/13/2445380.html 在C#中,十进制和十六进制转换非常简单,方法如下: 十进制转为十六进制: ...
最强烈推荐－我的java收藏夹（内有国内最好的java论坛）
原地址: http://bbs.chinaitlab.com/dispbbs.asp?boardid=148&id=34276 国内: www.chinajavaworld.com-论坛人很多 ...
StringList 自定义快速排序
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms ...

Hadoop: the definitive guide 第三版 拾遗 第十二章 之Hive分区表、桶

Hive分区表

实现细节

语法

Hive 桶

Hadoop: the definitive guide 第三版 拾遗 第十二章 之Hive分区表、桶的更多相关文章

随机推荐

热门专题

Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶

Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶的更多相关文章