【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样

分区表：

建表语句中添加：partitioned by (col1 string, col2 string)

		create table emp_pt(id int, name string, job string, mgr int, hiredate string, salary double, bonus double, deptid int) partitioned by (year string) row format delimited fields terminated by "\t";

	 重点：partitioned by (year string)

	导入数据：

		 insert overwrite table emp_pt partition(year="1980") select * from emp where year(hiredate)=1980;    // hdfs会在emp_pt下，新建year=1980目录

		 insert overwrite table emp_pt partition(year="1981") select * from emp where year(hiredate)=1981;

		 insert overwrite table emp_pt partition(year="1982") select * from emp where year(hiredate)=1982;

	 查看HDFS目录结构，每个分区一个目录，目录名称：year=1980

		 hdfs dfs -ls /user/hive/warehouse/functiontest.db/emp_pt/

		 hdfs dfs -ls /user/hive/warehouse/functiontest.db/emp_pt/year=1980

	 查询：

		 show partitions emp_pt;

		 select * from emp_pt where year=1980;

	 分区之前，select需要遍历所有数据进行查找；

	 分区后，通过分区进行查找，只需要查找对应目录下的数据即可。

	 删除分区：

		alter table emp_pt drop partition( year=1980);

2.二级分区：

建表时，partitioned by 包含两个字段即可。

		create table emp_pt2(id int, name string, job string, mgr int, hiredate string, salary double, bonus double, deptid int) partitioned by (year string, month string) row format delimited fields terminated by "\t";

	 导入数据：

		 insert overwrite table emp_pt2 partition(year=1980, month=12) select * from emp where year(hiredate)=1980 and month(hiredate)=12;

		 insert overwrite table emp_pt2 partition(year=1981, month=11) select * from emp where year(hiredate)=1981 and month(hiredate)=11;

		 insert overwrite table emp_pt2 partition(year=1981, month=12) select * from emp where year(hiredate)=1981 and month(hiredate)=12;

	 查询，根据分区进行查询。

动态分区

静态分区需要手动指定分区名称，当分区非常多时，无法一一指定。此时可以使用动态分区表。

	建表语句不变，导入数据的方式改变了。

	新建表：

		create table emp_pt3 like emp_pt2;

	导入数据：

		insert overwrite table emp_pt3 partition(year, month) select *, year(hiredate) as year, month(hiredate) as month from emp;

		提示：

			Error: Error while compiling statement: FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict (state=42000,code=10096)

		再执行load，导入成功。

	查看HDFS目录结构：

		hdfs dfs -ls -R /user/hive/warehouse/functiontest.db/emp_pt3

	动态分区默认是以严格模式执行的，在这种模式下需要至少一个分区字段是静态的。这有助于阻止因设计错误导致导致查询差生大量的分区。列如：用户可能错误使用时间戳作为分区表字段。然后导致每秒都对应一个分区！

	关闭严格分区模式

		动态分区模式时是严格模式，也就是至少有一个静态分区。

		set hive.exec.dynamic.partition.mode=nonstrict	 //分区模式，默认strict

		set hive.exec.dynamic.partition=true			//开启动态分区,默认true

		set hive.exec.max.dynamic.partitions=1000  // 默认1000

分桶

建表：

		create table emp_pt4(id int, name string, job string, mgr int, hiredate string, salary double, bonus double, deptid int) partitioned by (year string) clustered by (salary) sorted by (id) into 5 buckets row format delimited fields terminated by "\t";

	重点：clustered by (salary) sorted by (id) into 5 buckets

	导入数据：

		insert overwrite table emp_pt4 partition(year=1981) select * from emp where year(hiredate)=1981;

	查看HDFS目录结构，目录下产生多个文件，每个文件就是一个桶；

		hdfs dfs -ls -R /user/hive/warehouse/functiontest.db/emp_pt4

抽样

没有分桶的表也能抽样，但需全表扫描，效率不高。而如果通过分桶字段进行抽样，则避免了全表扫描。

	按桶抽样：

		select * from emp tablesample(bucket 1 out of 5 on salary) s;			// 返回空，第一个桶本来就没数据

		select * from emp tablesample(bucket 2 out of 5 on salary) s;			// 返回第二个桶的数据

		hdfs dfs -cat /user/hive/warehouse/functiontest.db/emp_pt4/year=1981/000004_0		// 查看HDFS文件，跟上面select内容是一样的

	按百分比抽样，抽取一半数据：

		select * from emp_pt4 tablesample(50 percent);

	按行抽样：

		select * from emp_pt4 tablesample(2 rows);

【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样的更多相关文章

hive中简单介绍分区表(partition table)——动态分区(dynamic partition)、静态分区(static partition)
一.基本概念 hive中分区表分为:范围分区.列表分区.hash分区.混合分区等. 分区列:分区列不是表中的一个实际的字段,而是一个或者多个伪列.翻译一下是:“在表的数据文件中实际上并不保存分区列的信 ...
大数据学习----day27----hive02------1. 分桶表以及分桶抽样查询 2. 导出数据 3.Hive数据类型 4 逐行运算查询基本语法（group by用法，原理补充） 5.case when（练习题，多表关联）6 排序
1. 分桶表以及分桶抽样查询 1.1 分桶表对Hive(Inceptor)表分桶可以将表中记录按分桶键(某个字段对应的的值)的哈希值分散进多个文件中,这些小文件称为桶. 如要按照name属性分为3个 ...
Hive分区（静态分区+动态分区）
Hive分区的概念与传统关系型数据库分区不同. 传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区. Hive的分区方式:由于Hive实 ...
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法.分区的好处在于缩小查询扫描范围,从而提高速度.分区分为两种:静态分区static partition和动态分区dynamic partition.静态分区和动态分区 ...
Hive Experiment 2（表动态分区和IDE）
1.使用oracle sql developer 4.0.3作为hive query的IDE. 下载hive-jdbc driver http://www.cloudera.com/content/c ...
hive学习(六) 参数和动态分区
1.hive 参数.变量 1.1hive的命名空间: hive当中的参数.变量,都是以命名空间开头
hive从入门到放弃(四)——分区与分桶
今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--DDL数据定义 hive从入门到放弃(三)--DML数据操作分区 ...
Hive学习之动态分区及HQL
Hive动态分区 1.首先创建一个分区表create table t10(name string) partitioned by(dt string,value string)row format d ...
hive -- 分区，分桶(创建，修改，删除)
hive -- 分区,分桶(创建,修改,删除) 分区: 静态创建分区: 1. 数据: john doe 10000.0 mary smith 8000.0 todd jones 7000.0 boss ...

随机推荐

Java常见的集合的数据结构
数据结构数据结构__栈:先进后出栈:stack,又称堆栈,它是运算受限的线性表,其限制是仅允许在标的一端进行插入和删除操作,不允许在其他任何位置进行添加.查找.删除等操作. 简单的说:采用该结构的 ...
【Spark】必须要用CDH版本的Spark？那你是不是需要重新编译？
目录为什么要重新编译? 步骤一.下载Spark的源码二.准备linux环境,安装必须软件三.解压spark源码,修改配置,准备编译四.开始编译为什么要重新编译? 由于我们所有的环境统一使用 ...
Vulnhb 靶场系列：Jarbas1.0
靶场镜像官网信息收集攻击机kali IP地址通过nmap 进行主机发现,发现目标机IP地址 nmap -sP 192.168.227.1/24 参数说明: -sP (Ping扫描) 该选项告诉 ...
CentOS7 Installing Python3
最近开始学习python. python火了这么久,我终于还是跪舔它了,我是一个跟风的人,学过C.C#.JAVA.PHP,无一例外的浅尝即止,不知道我这双已经近视的眼,确认过的眼神还对不对,希望pyt ...
HDU 2001 （水）
题目连接:http://acm.hdu.edu.cn/showproblem.php?pid=2001 题目大意:两个点求距离解题思路: 套基本公式 a = √(b2 + c2); 小数点后几位的表 ...
vue实例中created、mounted以及其他类型说明
生命周期图示(图片来自coderwhy老师): 每个 Vue 实例在被创建之前都要经过一系列的初始化过程.例如,实例需要配置数据观测(data observer).编译模版.挂载实例到 DOM ,然后 ...
filebeat-kafka:WARN producer/broker/0 maximum request accumulated, waiting for space
You need to configure 3 things: Brokers Filebeat kafka output Consumer Here a example (change paths ...
00002-layui 右侧呼出页面，PopupLayer
我这里的功能是弹出右侧搜索的页面: top.layui.admin.popupRight({ id: 'LAY_business_PopupLayer' ,area: '350px' ,succe ...
【雕爷学编程】Arduino动手做（44）---类比霍尔传感器
37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里 ...
webpack指南（四）shimming
shimming 将一个新的 API 引入到一个旧的环境中,而且仅靠旧的环境中已有的手段实现. ProvidePlugin 我们在程序中暴露一个变量,通知webpack某个库被使用,webpack将在 ...

【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样

【HIVE】（2）分区表、二级分区、动态分区、分桶、抽样的更多相关文章

随机推荐

热门专题