Hive 的分桶 & Parquet 概念

Suckseedeva 2024-10-27 18:49:44 原文

分区 & 分桶

都是把数据划分成块。分区是粗粒度的划分，桶是细粒度的划分，这样做为了可以让查询发生在小范围的数据上以提高效率。

分区之后，分区列都成了文件目录，从而查询时定位到文件目录，子数据集而提高查询效率。

桶

创建：

create table zyy_table (id int,name string)

clustered by (id) into 4 buckets;

clustered by (...) into (...) buckets 声明分桶列和桶的个数。

hive会计算记录的哈希值，对桶的个数取模，来决定记录属于哪个桶。

set hive.enforce.bucketing=true –- 必须设置这个数据，hive才会按照你设置的桶的个数去生成数据

hive> dfs -ls /user/hive/warehouse/zyy_table; -- 可以查询桶文件

drwxrwxr-x+  1 hive hive        111 2016-07-28 19:30 /user/hive/warehouse/test.db/zyy_table/000000_0

drwxrwxr-x+  2 hive hive        120 2016-07-28 19:41 /user/hive/warehouse/test.db/zyy_table/000000_1

-rwxrwxr-x+  3 hive hive        148 2016-07-28 19:41 /user/hive/warehouse/test.db/zyy_table/000000_2

对示例数据进行查询：

— 带桶的表

select * from zyy_table tablesample(bucket 1 out of 4 on id);

tablesample 可以让查询发生在一部分桶上，而不是普通表的查询（使用rand() 函数，在整个数据集上检索）

parquet

http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format/

面向分析型业务的列式存储格式。

列式存储相比于行式存储的优势：

1. 可以跳过不符合条件的数据，降低IO

2. 压缩编码，节省空间。同一列数据类型一样，可以高效压缩。

3. 只读取需要的列，支持向量运算，扫描更有效率。

Parquet的优势：

日志结构是复杂的嵌套数据类型，而不同的计算框架需要对这些数据做分析和挖掘，存储和访问很重要。paquet就是既支持关系型数据类型，又能支持嵌套类型的存储格式，

同时适配多种数据处理框架（MapReduce, Hive, Pig）。

关系型数据的列式存储很简单，一列列排列下来；

嵌套型的列存储有些复杂。一个record中的column可以是Int Long，String 也可以是List， Map，Set 这样。（具体需深入）

Hive 的分桶 & Parquet 概念的更多相关文章

Hive的分桶表
[分桶概述] Hive表分区的实质是分目录(将超大表的数据按指定标准细分到指定目录),且分区的字段不属于Hive表中存在的字段:分桶的实质是分文件(将超大文件的数据按指定标准细分到分桶文件),且分桶的 ...
Hive分区和桶的概念
Hive 已是目前业界最为通用.廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能.稳定性等方面来说,Hive 的地位尚不可撼动. 其实这篇博文主要是想聊聊 S ...
hive，分桶，内外部表，分区
简单的word-count操作: [root@master test-map]# head -10 The_Man_of_Property.txt #先看看数据Preface“The Forsy ...
hive的分桶
套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于 hive 中每一个表.分区都可以进一步进行分桶. 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中.(网上其它定 ...
hive的分桶原理
套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于 hive 中每一个表.分区都可以进一步进行分桶. 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中.(网上其它定 ...
Hive 学习之路（五）—— Hive 分区表和分桶表
一.分区表 1.1 概念 Hive中的表对应为HDFS上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为HDFS上表目录的子目录,数据按照分区存储在子目录中.如 ...
Hive 系列（五）—— Hive 分区表和分桶表
一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...
Hive SQL之分区表与分桶表
Hive sql是Hive 用户使用Hive的主要工具.Hive SQL是类似于ANSI SQL标准的SQL语言,但是两者有不完全相同.Hive SQL和Mysql的SQL方言最为接近,但是两者之间也 ...
入门大数据---Hive分区表和分桶表
一.分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大. 分区为 HDFS 上表目录的子目录,数据按照分区存储在子 ...

随机推荐

http协议（八）请求首部字段
请求首部字段定义:请求首部字段是从客户端到服务器发送请求报文中所使用的字段,里面包含了附加信息.客户端信息以及对响应内容相关的优先级等内容 1.Accept 通知服务器用户代理可处理的媒体类型及媒体 ...
GNU Trove trove4j
GNU Trove (http://trove4j.sourceforge.net/) 是一个Java 集合类库.在某些场景下,Trove集合类库提供了更好的性能,而且内存使用更少.以下是Trove中 ...
（原创）mybatis学习二，spring和mybatis的融合
mybatis学习一夯实基础上文介绍了mybatis的相关知识,这一节主要来介绍mybaits和spring的融合一,环境搭建 1,jar包下载,下载路径为jar包 2,将包导入到java工程中 ...
MySQL分表（Partition）学习研究报告
最近在开发一个新的项目,可能会产生大数据量,需要对部分表进行分表操作,故来研究学习MySQL的分表功能. 由于实验报告已经写成Exlce文件了,各位看过就直接下载吧:MySQL分表分析报告.xls 以 ...
Ice的HelloWorld(Java)
Ice是一种面向对象的中间间平台,入门ice,简单的HelloWorld是必不可少的. 转载请注明http://www.cnblogs.com/zrtqsk/p/3745286.html,谢谢. 一. ...
sql 2012 提示列名无效但可以执行问题
笔者目前使用Ctrl+Shift+R可以解决这个问题,因为智能感知的问题,需要重新整理一下intellisense.有其他方法,请园友共享一下,谢谢. VS2012及13都有用到智能感知,而在sql里 ...
记 FineUI 官方论坛所遭受的一次真实网络攻击！做一个像 ice 有道德的黑客！
在开始正文之前,请帮忙为当前排名前 10 唯一的 .Net 开源软件 FineUI 投一票: 投票地址: https://code.csdn.net/2013OSSurvey/gitop/code ...
C# 7.0 新特性3：模式匹配
本文参考Roslyn项目Issue:#206,及Docs:#patterns. 1. C# 7.0 新特性1: 基于Tuple的“多”返回值方法 2. C# 7.0 新特性2: 本地方法 3. C# ...
WPF 让子元素动起来！
在没有接触Blend之前,自己整出了一个MultiTouchHelper,这东西是做什么的呢?就是利用附加属性让元素可以多点触控. 然后某一天发现Blend里面有一个Behavior的东西,我去,原来 ...
JAVA GC 简单总结
GC分代 GC的英文全拼是Garbage Collection,意思是垃圾收集. Java 将堆内存分为三代来管理: - 年轻代 (Young Generation) - 年老代 (Old Gener ...