Iceberg常用命令

一、登录spark客户端

spark-sql --master yarn \

--deploy-mode client \

--queue default \

--name wang \

--driver-memory 12G \

--num-executors 10 \

--executor-cores 2 \

--executor-memory 10G

二、sql查询表信息

1、查询表快照信息

SELECT * FROM spark_catalog.data_lake_ods.test_table.snapshots order by committed_at desc

SELECT count(1) FROM spark_catalog.data_lake_ods.test_table.snapshots

2、查询表数据文件

--查询当前快照对应的数据文件

SELECT count(1) FROM data_lake_ods_test.dwd_mkt_uqun_call_detail.data_files

--查询表所有数据文件

SELECT count(1) FROM data_lake_ods_test.dwd_mkt_uqun_call_detail.all_data_files

3、查询删除文件

--查询当前快照对应的删除文件

SELECT count(1) FROM data_lake_ods.test_table.delete_files

--查询所有删除文件

SELECT * FROM data_lake_ods.test_table.all_delete_files

SELECT count(1) FROM data_lake_ods.test_table.all_delete_files

4、查询表快照历史

select * from data_lake_ods.ods_bdg_dp_data_source.history

5、查询manifests

select * from iceberg_catalog.data_lake_ods.ods_bdg_dp_data_source.manifests

三、Iceberg表DDL操作

1、建非分区表

--建表。 布隆筛选建议和主键一样，最多不超过3个

CREATE TABLE data_lake_ods.test123(

  changed_type int comment 'null',

  id bigint comment 'id',

  create_time string comment '创建时间',

  update_time string comment '更新时间'

)USING iceberg

TBLPROPERTIES(

  'format-version'='2'

  ,'write.upsert.enabled'='true'

  ,'engine.hive.enabled'='true'

  ,'write.distribution-mode' = 'hash'

  ,'write.metadata.metrics.default'='full'

  ,'write.parquet.bloom-filter-enabled.column.id' = 'true'

  ,'table.drop.base-path.enabled'='true'

);

2、建分桶表

--分桶表。布隆筛选建议和主键一样，最多不超过3个

CREATE TABLE spark_catalog.data_lake_ods_test.test_bucket_month (

  `order_number` BIGINT COMMENT '订单编号',

  `user_number` BIGINT COMMENT '用户编号',

  `pay_number` BIGINT COMMENT '支付编号',

  `spu_number` BIGINT COMMENT '商品spu编号',

  `sku_number` BIGINT COMMENT '商品sku编号',

  `kafka_timestamp` TIMESTAMP COMMENT 'kafka写入时间戳'

)USING iceberg

PARTITIONED BY (bucket(12,order_number))

TBLPROPERTIES(

  'format-version'='2'

  ,'write.upsert.enabled'='true'

  ,'engine.hive.enabled'='true'

  ,'write.distribution-mode' = 'hash'

  ,'write.metadata.metrics.default'='full'

  ,'write.parquet.bloom-filter-enabled.column.id' = 'true'

  ,'table.drop.base-path.enabled'='true'

);

其它优化参数

TBLPROPERTIES (

  'write.merge.mode' = 'merge-on-read',

  'write.update.mode' = 'merge-on-read',

  'write.delete.mode' ='merge-on-read',

  'write.metadata.delete-after-commit.enabled' = 'true',

  //保留metadata.json个数，会删除历史的metadata.json，但不会清理snapshot（即manifestList、manifest、data file、delete file都不会清理）

  'write.metadata.previous-versions-max' = '10',

);

3、修改表属性

alter table data_lake_ods.test123 SET TBLPROPERTIES('write.metadata.metrics.default'='full','write.distribution-mode' = 'hash');

4、删除表

drop table data_lake_ods.test123 purge;

四、表治理

1、小文件合并(非分区表)

CALL spark_catalog.system.rewrite_data_files(

table => 'data_lake_ods.test123',

options => map(

  'partial-progress.enabled', 'true',

  'rewrite-job-order', 'bytes-asc',

  'partial-progress.max-commits', '10000',

  'max-file-group-size-bytes', '1073741824',

  'target-file-size-bytes','134217728',

  'rewrite-all','true'

  )

);

2、小文件合并（分区表）

CALL spark_catalog.system.rewrite_data_files(

table => 'data_lake_ods_test.test123',

options => map(

  'partial-progress.enabled', 'true',

  'rewrite-job-order', 'bytes-asc',

  'partial-progress.max-commits', '10000',

  'max-file-group-size-bytes', '1073741824',

  'target-file-size-bytes','134217728',

  'remove-dangling-deletes','true',

  'rewrite-all','true'

  )

);

3、治理删除文件特别多的单表（先把删除文件干掉，然后再执行上面治理命令）

CALL spark_catalog.system.rewrite_data_files(

table => 'data_lake_ods.test123',

options => map(

  'max-concurrent-file-group-rewrites','19',

  'max-file-group-size-bytes','1',

  'partial-progress.enabled', 'true',

  'rewrite-all','true'

  )

);

4、过期快照清理

CALL spark_catalog.system.expire_snapshots(table => 'data_lake_ods.test_table', older_than => TIMESTAMP '2024-04-08 10:00:00.000');

五、表运维

1、spark3.3查询指定时间快照数据

SELECT * FROM data_lake_ods.ods_bdg_dp_data_source TIMESTAMP AS OF '2024-02-29 17:10:31';
SELECT * FROM data_lake_ods.ods_bdg_dp_data_source TIMESTAMP AS OF 499162860;

2、spark3.3查询制定快照数据

SELECT * FROM data_lake_ods.ods_bdg_dp_data_source VERSION AS OF 10963874102873;

3、回滚快照

CALL hadoop_prod.system.rollback_to_timestamp('mydb.mytest', TIMESTAMP '2021-12-23 16:56:40.000')

六、优秀文章

1、网易数帆

https://www.6aiq.com/article/1686471152273

Iceberg常用命令的更多相关文章

Linux 常用命令（持续补充）
常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...
LVM基本介绍与常用命令
一.LVM介绍LVM是 Logical Volume Manager(逻辑卷管理)的简写,它是Linux环境下对磁盘分区进行管理的一种机制LVM - 优点:LVM通常用于装备大量磁盘的系统,但它同样适 ...
Linux学习笔记（一）：常用命令
经过统计Linux中能够识别的命令超过3000种,当然常用的命令就远远没有这么多了,按照我的习惯,我把已经学过的Linux常用命令做了以下几个方面的分割: 1.文件处理命令 2.文件搜索命令 3.帮助 ...
git常用命令（持续更新中）
git常用命令(持续更新中) 本地仓库操作git int 初始化本地仓库git add . ...
【原】npm 常用命令详解
今年上半年在学习gulp的使用,对npm的掌握是必不可少的,经常到npm官网查询文档让我感到不爽,还不如整理了一些常用的命令到自己博客上,于是根据自己的理解简单翻译过来,终于有点输出,想学习npm这块 ...
npm常用命令
npm常用命令环境:win7 npm 是什么 NPM(node package manager),通常称为node包管理器.顾名思义,它的主要功能就是管理node包,包括:安装.卸载.更新.查看.搜 ...
Git 常用命令
一.初始環境配置 git config --global user.name "John Doe"git config --global user.email johndoe@ex ...
linux iptables常用命令之配置生产环境iptables及优化
在了解iptables的详细原理之前,我们先来看下如何使用iptables,以终为始,有可能会让你对iptables了解更深所以接下来我们以配置一个生产环境下的iptables为例来讲讲它的常用命令 ...
Linux常用命令（一）
Linux常用命令 1. pwd查看当前路径(Print Working Directory) [root@CentOS ~]# pwd/root 2. cd .. 返回上一级 .. 表示上一级 ...
版本控制-svn服务器搭建和常用命令（centos 6.3）
Svn是比较优秀的版本控制工具,虽然功能和性能上无法和Git媲美,但由于其容易搭建和使用的特性,所以在各个小公司还是很受欢迎的.使用Git可参考<版本控制-Git服务器搭建和常用命令使用> ...

随机推荐

pikachu平台XXE漏洞通关教程详解
声明! 如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人无关,切勿触碰法律底线,否则后果自负!!!! 文章来自个人csdn博客,地址:ht ...
从零开始学java(第一天)
上班日学习时间很短,而且很多事情会耽搁,就会写的比较少近几期的笔记以复习为主,后面会逐渐拓展对我个人来说的新知识 1. 复习了一下typore的语法,方便以后记笔记用 # MarkDown学习(# ...
Android运行时请求权限封装
@ 目录 1 介绍 2 测试用例设计 3 实现 4 用例测试 5 总结本文目的:"借助透明Activity封装一个易于调用的权限请求模块" 1 介绍 Android权限的校验和申 ...
通过加密的方式做身份鉴权—Demo设计
目录鉴权方式账号+密码账号+短信验证码第三方渠道鉴权--微信 Reference 本文只是一个Demo设计,仅供学习思路,并不能用于真实的线上业务,因为有很多漏洞. 一般线上应用都需要对用户身 ...
win7下使用Aero2主题错误
开发了一个gui工具,有同事在win7环境下发现界面无法加载出来. 经过调试发现,在view初始化的过程中,提示PresentationFramework.Aero2无法加载,异常信息如下: {Sys ...
Kettle用查出来的数据自动创建表
Kettle在表输入的时候,写好很复杂的SQL,有种场景,就是想把这个很复杂的查出来的数据,自动创建一个表. 其实,操作步骤不复杂. 跟着我来做就是了. 1,新建表输出,Shift按住,从表输入拖动 ...
中电金信发布两款大模型产品，打通AI+应用“最后一公里”
近年来,以大模型为代表的人工智能技术已成为引领新一代产业变革的核心动力.2024年政府工作报告首次提出"人工智能+",要求"大力推进现代化产业体系建设,加快发展新质生产力 ...
JWT相关知识点
目录一.jwt介绍和原理概念构成与工作原理 1.header 2.payload 3.signature 本质原理 jwt认证算法:签发与校验签发:根据登录请求提交来的账号 + 密码 + 设 ...
django目录结构、app概念和三板斧的初步介绍
目录一.django app(应用)的概念概念命令行创建应用 pycharm创建应用创建应用注意事项二.django主要目录结构三.django小白必会三板斧一.django app(应 ...
执行docker-compose up -d时出现ERROR: Failed to Setup IP tables: Unable to enable SKIP DNAT rule
原因是因为防火墙关闭之后需要重启docker服务. 执行: service docker restart 即可.

Iceberg常用命令

Iceberg常用命令的更多相关文章

随机推荐

热门专题