一、开发注意事项

1、Iceberg选择合适的表版本

简述：Iceberg目前有两个表版本（V1和V2），根据数据选择合适的表版本。

V1表只支持增量数据插入，适合做纯增量写入场景，如埋点数据。

V2表才支持行级更新，适合做状态变化的更新，如订单表同步。

使用方式：建表语句时指定版本'format-version'='2'，默认使用V1

2、Oceanus自动建表

简述：使用Oceanus时编写建表语句，Oceanus在第一次运行任务时会自动建表。不需要登录数据库手动建表。

3、建表类型转换问题

简述：mysql表create_time大多为timestamp类型，同步到iceberg后使用spark查询会报timezone错误。

原因：源表没有timezone, 下游表需要设置local timezone

使用方式：建iceberg表时指定字段类型为TIMESTAMP_LTZ类型

4、任务全量同步和增量同步

简述：全量同步阶段需要速度快，可以把flink checkpoint设置为1分钟，并发可以调高（比如1CU*10）这样可以快速同步数据。同时要考虑你的数据源能支持多快抽取，否则dba会找你。

增量阶段一般数据量比较低了，全量同步完后可以先把任务停止一下（注意保存checkpoint），然后调小资源和并发（比如0.5CU*1）可以节省资源。mysql增量阶段只能单线程跑，设置并发多也没用。

5、删表（spark方式删表）

简述：和hive删表不一样，iceberg默认只删除元数据不清理hdfs文件，删表语句后面需要加purge关键字。原本路径不会删除，腾讯特殊改造过包

使用方式：drop table data_lake_ods.test1 purge;

二、任务运维注意事项

1、小文件合并

简述：全量同步后因为每分钟一次checkpoint会生成大量的小文件，全量同步结束后需要做一下小文件合并，提高查询速度。

使用方式参考：Iceberg小文件合并测试

2、过期快照清理

简述：全量同步后因为每分钟一次checkpoint会产生大量快照，全量同步结束后需要做一下快照清理，提高查询速度。

使用方式参考：Iceberg过期快照清理

三、查询注意事项

1、presto查询iceberg表

简述：腾讯DLC那边做了改造支持查询V2表。自建emr的presto（旧集群）已支持查询v1版本表，因版本问题不支持v2表。

使用必读-使用Iceberg数据湖需要注意的点的更多相关文章

使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
均有商业公司支持！2023再看数据湖 hudi iceberg delta2 社区发展现状！
开源数据湖三剑客 Apache hudi.Apache iceberg .Databricks delta 近年来大动作不断. 2021年8月,Apache Iceberg 的创始人 Ryan Blu ...
印度最大在线食品杂货公司Grofers的数据湖建设之路
1. 起源作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用.但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永 ...
对话Apache Hudi VP, 洞悉数据湖的过去现在和未来
Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量.Hudi的一些常见用例是记录级的插入.更新和删除.简 ...
JuiceFS 在数据湖存储架构上的探索
大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它 ...
从 Delta 2.0 开始聊聊我们需要怎样的数据湖
盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道. 虽然 Databricks ...
重磅！flink-table-store 将作为独立数据湖项目重新加入 Apache
数据湖是大数据近年来的网红项目,大家熟知的开源数据湖三剑客 Apache hudi.Apache iceberg .Databricks delta 近年来野蛮生长,目前各自背后也都有商业公司支持,投 ...
lamba数据架构以及数据湖
面试大数据项目,面试过程中发现面试官提到的两个概念没有搞清楚: 1. lamba数据架构:这个概念的提出是由storm的作者提出来的,其实主旨就是想要说明,数据的处理分成三层,一类是批处理程序(bat ...
构建企业级数据湖？Azure Data Lake Storage Gen2不容错过（上）
背景相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 数据湖的核心功能, ...
构建企业级数据湖？Azure Data Lake Storage Gen2实战体验（中）
引言相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大.综合成本低.支持非结构化数据.查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式. 因此数据湖相关服务 ...

随机推荐

Java深度历险（一）——Java字节代码的操纵
[编者按]Java作为业界应用最为广泛的语言之一,深得众多软件厂商和开发者的推崇,更是被包括Oracle在内的众多JCP成员积极地推动发展.但是对于Java语言的深度理解和运用,毕竟是很少会有人涉及的 ...
golang之json.RawMessage
RawMessage 具体来讲是 json 库中定义的一个类型.它实现了 Marshaler 接口以及 Unmarshaler 接口,以此来支持序列化的能力.注意上面我们引用官方 doc 的说明. ...
打包jar 程序，同时将依赖报一起打包
1.概述有些时候,我们打包一个java 程序,我需要将所有的依赖也一起打包,这样执行起来方便. 2.我们可以使用maven 插件实现 <build> <plugins> &l ...
零基础学习人工智能—Python—Pytorch学习（十二）
前言本文介绍使用神经网络进行实战. 使用的代码是<零基础学习人工智能-Python-Pytorch学习(九)>里的代码. 代码实现 mudule定义首先我们自定义一个module,创建 ...
Solon v3.0.5 发布！（Spring 生态可以退休了吗？）
Solon 框架! 新一代,面向全场景的 Java 应用开发框架.从零开始构建(非 java-ee 架构),有灵活的接口规范与开放生态. 追求: 更快.更小.更简单提倡: 克制.高效.开放.生态有 ...
Qt控件SDK使用示例大全
文章链接 01表盘控件-01汽车仪表盘-gaugecar https://qtchina.blog.csdn.net/article/details/120240257 01表盘控件-02圆弧仪表盘 ...
Qt音视频开发40-人脸识别离线版
一.前言上一篇文章写了在线调用人脸识别api进行处理,其实很多的客户需求是要求离线使用的,尤其是一些事业单位,严禁这些刷脸数据外泄上传到服务器,尽管各个厂家号称严格保密这些数据,但要阻止这些担心,唯 ...
搞懂现代Web端即时通讯技术一文就够：WebSocket、socket.io、SSE
本文引用自" 豆米博客"的<JS实时通信三把斧>系列文章,有优化和改动. 1.引言有关Web端即时通讯技术的文章我已整理过很多篇,阅读过的读者可能都很熟悉,早期的We ...
JedisPool和Jedis推荐的生命周期
在开发 Web 项目时,使用 Jedis 客户端与 Redis 进行交互时,通常建议将 JedisPool 设置为单例或静态的,而 Jedis 实例则不应该是单例的.以下是详细的解释和最佳实践: 1. ...
tomcat源码分析（一）如何启动服务
从startup.sh入手 os400=false case "`uname`" in OS400*) os400=true;; esac PRG="$0" w ...

使用必读-使用Iceberg数据湖需要注意的点

一、开发注意事项

二、任务运维注意事项

三、查询注意事项

使用必读-使用Iceberg数据湖需要注意的点的更多相关文章

随机推荐

热门专题