分区

分区是将表的数据按照某个列的值进行划分和存储的一种方式。通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。

一、分区的优势

  • 提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。
  • 管理数据更加灵活:可以根据业务需求对数据进行分区,方便数据的管理和维护。
  • 支持数据生命周期:可以根据数据的时间或其他维度进行分区,方便数据的归档和清理。

二、创建分区表

create table my_table(
col1 int,
col2 string
)
partitioned by (dt string,country string);
  • 时间:根据时间戳或日期将数据按照不同的时间段进行分区,例如按年、月、日等。
  • 地理位置:根据地理位置将数据按照不同的地域进行分区,例如国家、城市等。
  • 类别/类型:根据某个类别或类型属性将数据进行分类并进行相应的分区。

三、操作分区数据

 -- 开启动态分区功能
SET hive.exec.dynamic.partition=true;
-- 设置动态分区模式为非严格模式(允许部分分区为静态分区,部分为动态分区)
SET hive.exec.dynamic.partition.mode=nonstrict; -- 插入分区数据
insert into my_table
partition (dt='2024-04-18',country='China')
values (1,'data1'),(2,'data2'); -- 查询分区数据
select col1,col2
from my_table
where dt='2024-04-18' and country='China';

此外,为了控制动态分区的数量,避免过多的小文件,还可以设置以下参数

SET hive.exec.max.dynamic.partitions.pernode=1000; -- 每个节点的最大动态分区数
SET hive.exec.max.dynamic.partitions=10000; -- 总的最大动态分区数
SET hive.exec.max.created.files=100000; -- 一次查询中创建的最大文件数

在hive中可以使用如下sql查看相关参数(比如hive.exec.dynamic.partition)的当前配置

set hive.exec.dynamic.partition;

四、分区的设置

  • 选择合适的分区键,通常选择日期作为分区键
  • 评估每天的数据增长量,预估未来三年内的空间情况及记录数
  • 若每天的记录数较少,则选择范围分区,若每天记录数较多,则选择单值分区。
  • 范围分区视数据增长情况,按月、按季、按年进行

分桶

分桶是将表的数据按照哈希函数的结果进行划分和存储的一种方式。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。

一、分桶的优势

  • 提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
  • 支持随机抽样:分桶可以方便地进行随机抽样操作,从而进行数据分析和调试。

二、创建分桶表

create table my_bucketed_table (
column1 int,
column2 string
)
clustered by (column1) into 3 buckets
stored as orc;

三、分桶数据的操作

-- 插入数据
insert overwrite table my_bucketed_table
select col1,col2 from my_table; -- 查询数据
select column1,column2
from my_bucketed_table
where column1=1;

四、分桶键的确认

通常对于单个分桶,记录数建议不超过1000w,或压缩前文本大小不超过1000MB

  • 分桶数必须为质数(只能被1和它本身整除的数)
  • 分桶数量 < 500个
  • 选择分桶字段时,尽量选择离散度较高的列,以避免造成Bucket的大小过意悬殊。
  • 常用的分桶字段多为原表主键,或者身份证号码、手机号等信息
  • 选择不会做update的字段(即确认下来的分桶键字段的值相对来说是常量,字段的值不会因为业务而变动)

查看数据分布,确认离散度较高的列,也就是相对来说数据分布较为均衡的字段。

select column_name,count(*) as count
from table_name
group by column_name
order by count;

分区分桶数的综合评估

  • 分区数 * 分桶数 < 10000个
  • 单个分区记录数 < 5000w
  • 分区数量 < 200个
  • 单个分区内的分桶数是否小于Hive配置CPU数

— 要养成终身学习的习惯 —

Hive - [08] 数据仓库物理模型设计的更多相关文章

  1. Hive:数据仓库工具,由Facebook贡献。

    Hadoop Common: 在0.20及以前的版本中,包含HDFS.MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Co ...

  2. 杂项:hive(数据仓库工具)

    ylbtech-杂项:hive(数据仓库工具) hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapRedu ...

  3. 胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例

    一.引言 基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例. 二.源数据-每日行情数据 三.建表脚本 C ...

  4. 一脸懵逼学习Hive(数据仓库基础构架)

    Hive是什么?其体系结构简介*Hive的安装与管理*HiveQL数据类型,表以及表的操作*HiveQL查询数据***Hive的Java客户端** Hive的自定义函数UDF* 1:什么是Hive(一 ...

  5. Sqoop+mysql+Hive+ Ozzie数据仓库案例

    mysql 数据库脚本为: /*==============================================================*/ /* DBMS name: MySQL ...

  6. Hbase物理模型设计

    Hbase的存储结构 1.Hbase宏观架构 从上图可以看hbase集群由一个master和多个RegionServer组成,右下角是一个RegionServer的内部图. Hbase的服务器角色构成 ...

  7. 【hive】数据仓库层次设计

    转载 https://www.jianshu.com/p/849db358ec61

  8. hive数据仓库入门到实战及面试

    第一章.hive入门 一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. ...

  9. Hive分布式的数据仓库

    1.hive介绍 hive是一个数据仓库的解决方案,它的数据存储依赖于HDFS,数据结算依赖于MR,也就是说,hive就是一个在数据仓库的服务,它只需要安装到一台普通的PC上即可,仅仅对外提供SQL服 ...

  10. Hive数据仓库笔记(一)

    Hive建表: CREATE TABLE records (year STRING,temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS ...

随机推荐

  1. 企业IT基础资源管理的“帮帮团”上线啦——源启云原生基础设施管理平台

    为助力企业提升基础资源一体化管理和交付效率,以更先进的基础设施管理方式来满足现代企业业务持续扩展和复杂化的需要,中电金信运用基础设施即代码(Infrastructure as Code,简称IaC)技 ...

  2. MYSQL支持的数据类型-数值类型

    一.数值类型分类 MYSQL支持所有标准SQL中的数值类型,其中包括严格数值类型(INTEGER.SMALLINT.DECIMAL和NUMERIC),以及近似数值数据类型(FLOAT.REAL和DOU ...

  3. 区块链技术已经衰落了吗?(区块链已die)

    区块链技术已经好多年没有听到有人提了,不过比特币却一直是不是的又新闻出现,当然国内已经把比特币交易归入到了不合法的地位了.区块链技术是国家战略的技术,但是这个技术说实话确实不是很高深,或者说蛮easy ...

  4. Qt音视频开发41-文件推流(支持网页和播放器播放并切换进度)

    一.前言 本功能最初也是有一些人提过类似的需求,就是能不能将本地的音视频文件,通过纯Qt程序推流出去,然后用户可以直接在网页上播放,也可以用各种播放器播放,然后还可以任意切换播放进度,其实说白了就是个 ...

  5. Qt开源作品17-IP地址输入控件

    一.前言 这个IP地址输入框控件,估计写烂了,网上随便一搜索,保证一大堆,估计也是因为这个控件太容易了,非常适合新手练手,一般的思路都是用4个qlineedit控件拼起来,然后每个输入框设置正则表达式 ...

  6. Visual Studio2012编译C#项目时出错“LC.exe”已退出的解决方法

    症状: Visual Studio2012编译C#项目时出错"LC.exe"已退出,代码为 -1. 原因: 因为证书的原因,把项目中"properties"目录 ...

  7. @wraps 修饰器:让你的 Python 代码更加简短可爱 | 从简单实例来认识它

    @wraps 修饰器:让你的 Python 代码更加简短可爱 | 从简单实例来认识它 我们在上一篇文章(Python实例来认识并发与并行)中用到了 @timer ,在函数定义时,加上一个小小的 @ti ...

  8. MAC 使用问题汇总

    1. 在.zshrc中添加的环境变量不起作用 Answer: 需要把/etc/zshrc文件复制到 ~, 并命名为.zshrc,然后设置环境变量即可:

  9. Elasticsearch的分享

    一.生活中的数据 搜索引擎是对数据的检索,所以我们先从生活中的数据说起.我们生活中的数据总体分为两种: 结构化数据 非结构化数据 结构化数据: 也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格 ...

  10. 联想服务器安装Centos8.3

    准备 1.服务器型号:ThinkSystem SR158 2.安装系统:Centos8.3 3.刻镜像工具:rufus 启动盘制作 我这里选择的是rufus,没有用UltraISO,因为制作的镜像经常 ...