一、文件存储格式

Hive的文件存储格式包括:textfilesequencercfileorcparquet

textfile

(简介)默认的文件格式,基于行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝到hdfs不进行处理。

(优点)便于和其他工具(pig,grep,sed,awk)共享数据,便于查看和编辑,加载较快。

(缺点)耗费存储空间,I/O性能较低;Hive不进行数据切分合并,不能进行并行操作,查询效率低。

(应用场景)适用于小型查询,查看具体数据内容的测试操作。

sequence

(简介)含有键值对的二进制文件,行存储。

(优点)可压缩、可分割,优化磁盘利用率和I/O;可并行操作数据,查询效率高。

(缺点)存储空间消耗最大;对于hadoop生态系统之外的工具不适用,需要通过text文件转化加载。

(应用场景)适用于数据量较小、大部分列的查询。

rcfile

(简介)行列式存储。先将数据按行分块,同一个record 在一个块上,避免读一条记录需要读多个 block;然后块数据列式存储。

(优点)可压缩,高效的列存取;查询效率较高。

(缺点)加载时性能消耗较大,需要通过 text 文件转化加载;读取全量数据性能低。

orc

(简介)优化后的 rcfile,行列式存储。

(优缺点)优缺点与rcfile类似,查询效率较高。

(应用场景)适用于hive中大型的存储、查询。

在2021到2023这三年的工作中,遇到最多的表的存储格式,但一般都是开启事务,即torc表。

parquet

(简介)列存储

(优点)更高效的压缩和编码;不与任何数据处理技术绑定,可用于多种数据处理框架(hive、Impala,Presto查询引擎;MR,Spark计算框架;Avro,Thrift,PB数据模型)。

(缺点)不支持 update,insert,delete,ACID

(应用场景)适用于字段数非常多,无更新,只取部分列的查询。

二、表的存储方式(管理方式)

外部表

默认创建的表即为外部表(建表语句如下)

create table table_name(
id int,
name string
)
-- 负载均衡
clustered by (id)
-- 桶
into 2 buckets
-- 记录行的分隔符
row format delimited
-- 记录列的分隔符
fields terminated by ','
-- 存储文件的格式:textfile是默认的,写与不写都是一样的
stored as orc -- textfile 不支持事务,而orc支持事务
-- 表的属性
tblproperties("transactional"="true", -- 是否开启事务
"compactor.mapreduce.map.memory.mb"="2048",
"compactorthreshold.hive.compactor.delta.num.threshold"="4",
"compactorthreshold.hive.compactor.delta.pct.threshold"="0.5"
)

内部表

与外部表的区别是,hive仅管理外部表的元数据,而不管理其在HDFS上的数据。(建表语句如下)

create external table table_name(
id int,
name string
)
-- 负载均衡
clustered by (id)
-- 桶
into 2 buckets
-- 记录行的分隔符
row format delimited
-- 记录列的分隔符
fields terminated by ','
-- 存储文件的格式:textfile是默认的,写与不写都是一样的
stored as orc -- textfile 不支持事务,而orc支持事务
-- 表的属性
tblproperties("transactional"="true", -- 是否开启事务
"compactor.mapreduce.map.memory.mb"="2048",
"compactorthreshold.hive.compactor.delta.num.threshold"="4",
"compactorthreshold.hive.compactor.delta.pct.threshold"="0.5"
)

很明显,从建表语句上看,创建内部表需要在create后面添加external关键字,两者的区别可以看下面的表格

drop table时 内部表(Managed Table) 外部表(External Table)
MySQL(元数据库)中的表结构和数据 会被删除 会被删除
HDFS中的记录(真实数据) 会被删除 仍然存在

三、建表的几种方式

create table as

  • 这个命令主要用于根据查询结果创建新表,并复制原数据,也就是说,它会将查询结果作为新表的数据内容。
  • create table as语句在创建新表的同时,也会填充数据。它实际上执行了查询操作,并将查询结构存储到新表中。
  • 这种方式主要适用于需要快速复制数据并创建一个新表的情况。

create table like

  • 这个命令用于创建一个与现有表结构相同的新表,但不会复制数据。新表会继承源表的表结构,包括索引和主键等。
  • 要复制源表和数据到新表,需要使用insert into语句单独执行。
  • create table like主要用于需要保留表结构但不需要复制数据的场景,比如备份表结构或者创建一个空的表结构用于后续的数据插入。

  总结来说,create table ascreate table like的主要区别在于:

    • 前者(create table as)不仅创建新表,还复制原数据(列结构和数据和源表一致,但不包括源表其他属性:分区、存储格式等)
    • 后者(create table like)仅创建与源表结构相同的新表,不复制数据。
    • 根据具体的需求和场景,可以选择适合的创建表的方式。

  如果希望新表在各个方面(包括结构、数据、分区、存储格式等)都和源表一模一样,那么你需要首先使用create table like来创建结构相同的表,然后使用insert into语句来复制数据。同时,你可能还需要手动设置新表的分区和存储格式等属性,以确保它们与源表一致。

— 要养成终生学习的习惯 —

Hive - 表相关的更多相关文章

  1. sqoop导入数据到hive表中的相关操作

    1.使用sqoop创建表并且指定对应的hive表中的字段的数据类型,同时指定该表的分区字段名称 sqoop create-hive-table --connect "jdbc:oracle: ...

  2. hive表分区相关操作

    Hive 表分区 Hive表的分区就是一个目录,分区字段不和表的字段重复 创建分区表: create table tb_partition(id string, name string) PARTIT ...

  3. spark相关介绍-提取hive表(一)

    本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hi ...

  4. hive 桶相关特性分析

    1. hive 桶相关概念     桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作.     抽样( sampling )可以在全体数 ...

  5. 导hive表项目总结(未完待续)

    shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d - ...

  6. 使用spark对hive表中的多列数据判重

    本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate. 1.先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关 ...

  7. hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据);HADOOP存储数据压缩方案对比(LZO,gz,ORC)

    数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...

  8. Spark访问Hive表

    知识点1:Spark访问HIVE上面的数据 配置注意点:. 1.拷贝mysql-connector-java-5.1.38-bin.jar等相关的jar包到你${spark_home}/lib中(sp ...

  9. Hive 表类型简述

    Hive 表类型简述   表类型一.管理表或内部表Table Type:  MANAGED_TABLE example: create table  Inner(id int,name string, ...

  10. hive表增量抽取到oracle数据库的通用程序(一)

    hive表增量抽取到oracle数据库的通用程序(二) sqoop在export的时候 只能通过--export-dir参数来指定hdfs的路径.而目前的需求是需要将hive中某个表中的多个分区记录一 ...

随机推荐

  1. COSBrowser 移动端——随时随地查看管理数据

    外出身边没有电脑,需要查看管理数据怎么办? 出现紧急情况,需要快速停止某个 bucket 对外访问,怎么办? 个人用户仅作为网盘使用,需要方便轻量的管理工具,怎么办? 不用着急,COSBrowser ...

  2. 利用H2的自定义函数更好的支持测试

    在写DAO层的单元测试时,用mock的写法意义不大,因为DAO层的测试更多的关注是Java对象的传递和生成SQL的正确性,所以需要链接真实的数据库. 但是对于单元测试,真实的数据库是很重的,还要依赖于 ...

  3. 重拾 iptables

    iptables 是一个常看常忘的命令,本文试图从应用的角度理解它 iptables 是运行在用户空间的应用软件,通过控制 Linux 内核 netfilter 模块,来管理网络数据包的处理和转发 一 ...

  4. [转]Spring+SpringMVC+MyBatis+easyUI整合基础篇(一)项目简述及技术选型介绍

    原文链接: Spring+SpringMVC+MyBatis+easyUI整合基础篇(一)项目简述及技术选型介绍

  5. vmstorage如何将原始指标转换为有组织的历史

    vmstorage如何将原始指标转换为有组织的历史 参考自:vmstorage-how-it-handles-data-ingestion vmstorage是VictoriaMetrics中负责处理 ...

  6. IM消息ID技术专题(六):深度解密滴滴的高性能ID生成器(Tinyid)

    1.引言 在中大型IM系统中,聊天消息的唯一ID生成策略是个很重要的技术点.不夸张的说,聊天消息ID贯穿了整个聊天生命周期的几乎每一个算法.逻辑和过程,ID生成策略的好坏有可能直接决定系统在某些技术点 ...

  7. 老生常谈——分布式限流:部分Sentinal源码解读

    基础知识 HTTP CODE = 429 "请求过多" A. 限流的类型 服务端 客户端 限流的标的 IP 用户 ... 基本要求 准确限制过量的请求. 低延时.限流器不能拖慢HT ...

  8. CDS标准视图:维护包描述 I_MaintPackageTextData

    视图名称:维护包描述 I_MaintPackageTextData 视图类型:基础 视图代码: 点击查看代码 @EndUserText.label: 'Maintenance Package - Te ...

  9. ids4-startup

    https://stackoverflow.com/questions/28418360/jwt-json-web-token-audience-aud-versus-client-id-whats- ...

  10. WPF刮刮乐

    WPF刮刮乐 <Window x:Class="WpfApp2.MainWindow" xmlns="http://schemas.microsoft.com/wi ...