在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload，它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。

配置：hoodie.datasource.write.payload.class

注意：对于新的记录合并API ，这些可能会发生变化。因此此有效负载类详细信息适用于 Hudi 0.13.0 之前的所有版本。未来的版本可能会弃用这一点。

Payload类

Hudi 有一个有效负载类接口，它将确定如何将同一记录的两个版本合并在一起。

核心方法如下：

/**

* This methods lets you write custom merging/combining logic to produce new values as a function of current value on storage and whats contained

* in this object. Implementations can leverage properties if required.

* <p>

* eg:

* 1) You are updating counters, you may want to add counts to currentValue and write back updated counts

* 2) You may be reading DB redo logs, and merge them with current image for a database row on storage

* </p>

*

* @param currentValue Current value in storage, to merge/combine this payload with

* @param schema Schema used for record

* @param properties Payload related properties. For example pass the ordering field(s) name to extract from value in storage.

* @return new combined/merged value to be written back to storage. EMPTY to skip writing this record.

*/

Option<IndexedRecord> combineAndGetUpdateValue(IndexedRecord currentValue, Schema schema, Properties properties) throws IOException;

Hudi 在内部将一条记录表示为 HoodieRecord，它由一对 HoodieKey 和 HoodieRecordPayload 组成。正如我们在之前的博客中看到的，HoodieKey 代表一条记录的主键（通常是分区路径和记录键）。 HoodieRecordPayload是用户实际传入的数据。

让我们来看一个典型的例子。在 commit1 中摄取了 2 条记录，即 {HK1, payload1_1} 和 {HK2, payload2_1}。在 commit2 中，假设摄取 {HK1, payload1_2} 和 {HK3, payload3_1}。

由于更新了 HK1，Hudi 将合并两个有效载荷（payload1_1 和 payload1_2 以产生 HK1 的最终输出。这就是上面显示的 combineAndGetUpdateValue() 发挥作用的地方。

本质上，HK1.payload1_2.combineAndGetUpdateValue(HK1.payload1_1) 在 commit2 结束时推导出 HK1 的最终值。

在这种情况下，让我们深入研究 Hudi 提供的一些有效负载实现。默认负载类称为 OverwriteWithLatestAvroPayload。

OverwriteWithLatestAvroPayload

正如名称所暗示的那样，当使用此有效负载类时，我们只需使用新的传入值覆盖任何现有值。因此，在上述示例中，一旦 commit2 完成，payload1_2 将成为 HK1 的最终值。这是 Hudi 提供的最简单的有效负载，并且对社区中的大多数用户来说效果很好。

DefaultHoodieRecordPayload

我们还有一个名为 DefaultHoodieRecordPayload 的负载类。与 Hudi 一开始就提供的 OverwriteWithLatestAvroPayload 相比，这个 DefaultHoodieRecordPayload 是在 1.5 年前引入的。让我们深入了解一下这个负载类的特殊之处。

一般来说，Hudi表可以配置preCombine字段。简而言之 preCombine 字段用于解决同一批次中同一记录的两个版本之间的优胜者。例如，如果在写入 Hudi 时在同一批次中摄取 {HK1, payload1_1} 和 {HK1, payload1_2}，Hudi 将在内部路由之前对传入记录进行去重。因此在这种情况下，preCombine 字段值将决定多个版本中的获胜者。

例如可以在表schema中选择“updated_at”字段作为 preCombine 字段。因此，如果传入批次中有超过 1 条具有相同 HoodieKey 的记录，则具有较高 preCombine 值的记录将优先。

尽管 OverwriteWithLatestAvroPayload 和 DefaultHoodieRecordPayload 可能看起来很相似，但有一个关键区别。这是 combineAndGetUpdateValue() 的实现方式。 DefaultHoodieRecordPayload 在将传入记录与存储中的记录合并时也遵循 preCombine 值，而 OverwriteWithLatestAvroPayload 将盲目地选择传入而不是存储中的任何内容。

让我们添加带有插入记录（HK3，以及 HK1 的更新值）的 commit2。

OverwriteWithLatestAvroPayload 和 DefaultHoodieRecordPayload 都用 payload1_2 更新了 HK1。 OverwriteWithLatestAvroPayload 始终选择较新的传入，因此选择了 payload1_2。 DefaultHoodieRecordPayload 根据 preCombine 字段值推导。由于 payload1_2 的预组合字段值（20）高于 payload1_1 的预组合字段值（10），DefaultHoodieRecordPayload 也选择 payload1_2 作为 HK1 的最终快照。

现在让我们使用 commit3，它使用较低的 preCombine 值更新 HK1 以模拟迟到的数据。

OverwriteWithLatestAvroPayload 选择新的传入有效负载而不考虑 preCombine 值，因此它选择 payload1_3 作为 HK1 的最终值。但 DefaultHoodieRecordPayload 根据 preCombine 值选择最终获胜者，因此它选择 payload1_2 作为 HK1 的最终快照值。

社区有其他有效负载类供使用，如 OverwriteNonDefaultsWithLatestAvroPayload、AWSDmsAvroPayload、MySqlDebeziumAvroPayload、PostgresDebeziumAvroPayload 等。

还可以自定义合并两个版本的记录的负载类，为 lakehouse 用户提供了极大的灵活性。如果不是 SparkSQL 写入（MERGE INTO），没有多少系统能给你这种灵活性，但 Hudi 用户从一开始就享受它

结论

因为不同用例的场景不同，Hudi 支持Payload方式提供灵活性，有效负载类就是这样一种设计，可以根据自己的需求定义自己的 Payload 类，而不是局限于 Hudi 提供的 Payload。希望这篇博客有助于理解有效负载类的用途、常用的有效负载实现。

Apache Hudi 负载类Payload使用案例剖析的更多相关文章

超硬核解析！Apache Hudi灵活的Payload机制
Apache Hudi 的Payload是一种可扩展的数据处理机制,通过不同的Payload我们可以实现复杂场景的定制化数据写入方式,大大增加了数据处理的灵活性.Hudi Payload在写入和读取H ...
写入Apache Hudi数据集
这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法, 以及通过使用Hudi数据源的upserts加快大型Spark作业的方法. 对于此类数据集,我们可以使 ...
Apache Hadoop 2.9.2 的归档案例剖析
Apache Hadoop 2.9.2 的归档案例剖析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 能看到这篇文章说明你对NameNode 工作原理是有深入的理解啦!我们知道 ...
基于Apache Hudi和Debezium构建CDC入湖管道
从 Hudi v0.10.0 开始,我们很高兴地宣布推出适用于 Deltastreamer 的 Debezium 源,它提供从 Postgres 和 MySQL 数据库到数据湖的变更捕获数据 (CDC ...
直播 | Apache Kylin & Apache Hudi Meetup
千呼万唤始出来,Meetup 直播终于来啦- 本次线上 Meetup 由 Apache Kylin 与 Apache Hudi 社区联合举办,将于 3 月 14 日晚进行直播,邀请到来自丁香园.腾讯. ...
Apache Hudi 设计与架构最强解读
感谢 Apache Hudi contributor:王祥虎翻译&供稿. 欢迎关注微信公众号:ApacheHudi 本文将介绍Apache Hudi的基本概念.设计以及总体基础架构. 1.简 ...
Apache Hudi与Apache Flink集成
感谢王祥虎@wangxianghu 投稿 Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目.是当前最 ...
使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖
1. 引入数据湖使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好.更快的决策.Amazon Simple Storage Service(amaz ...
字节跳动基于Apache Hudi构建EB级数据湖实践
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的 ...
基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台
1. 摘要在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力. 增量消费--每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的OLAP平台事件流的无限 ...

随机推荐

【每日一题】【动态规划】2022年2月22日-NC59 矩阵的最小路径和
描述给定一个 n * m 的矩阵 a,从左上角开始每次只能向右或者向下走,最后到达右下角的位置,路径上所有的数字累加起来就是路径和,输出所有的路径中最小的路径和. 例如:当输入[[1,3,5,9], ...
【Hive】概念、安装、数据类型、DDL、DML操作、查询操作、函数、压缩存储、分区分桶、实战Top-N、调优（fetch抓取）、执行计划
一.概念 1.介绍基于Hadoop的数据仓库工具,将结构化数据映射为一张表,可以通过类SQL方式查询本质:将HQL转换成MapReduce程序 Hive中具有HQL对应的MapReduce模板存 ...
JavaSE流程学习图
重学c#系列——元组 [三十一]
前言元组并不是c# 7.0的东西,早之前就有,叫做tuple.7.0加了valuetuple. 来看下元组吧,主要一些注意的地方. 正文为什么在7.0 之前,元组用的不多呢? 因为tuple 在代 ...
P8340 [AHOI2022] 山河重整
\(20pts\) 给 \(O(2^n)\) 枚举,\(60pts\) 是 \(O(n^2)\),先看看怎么做.计数题无非容斥和 \(dp\),不妨从 \(dp\) 入手.多项式复杂度的做法意味着无法 ...
由char和byte的关系引申出去——总结一下java中的字符编码相关知识
由char和byte的关系引申出去--总结一下java中的字符编码相关知识一.字符编码手持两把锟斤拷,口中直呼烫烫烫在文章伊始,先来复习一下计算机中关于编码的一些基础知识,着重理清以下几 ...
DVWA靶场——靶场搭建
DVWA靶场搭建一.phpstudy环境准备: 第一步:下载PHPstudy: 找到PHPstudy官网,下载windows版小皮面板,然后安装.官网下载地址:https://www.xp.cn/ ...
《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(3)-再识Charles
1.简介上一篇通过宏哥的介绍想必各位小伙伴或者童鞋们对Charles已经有了一个理性地认识,今天宏哥在从Charles的外貌介绍和分享一下,让小伙伴们或者童鞋们再对Charles有一个感性的认识,今 ...
[Unity]Unity更改黑色主题（个人版）
前言首先需要一款软件:Winhex,由于现在已经是2018年,大部分百度的软件都已经失效或者出现一堆bug,我费了九牛二虎之力才找到这个可用的,下面是下载地址: 链接:https://pan.bai ...
网络流棋盘模型 | P3355 骑士共存问题 P4304 [TJOI2013]攻击装置
题面(骑士共存问题) 在一个 \(n \times n\) 个方格的国际象棋棋盘上,马(骑士)可以攻击的棋盘方格如图所示.棋盘上某些方格设置了障碍,骑士不得进入. 对于给定的 \(n \times n ...

Apache Hudi 负载类Payload使用案例剖析

Payload类

OverwriteWithLatestAvroPayload

DefaultHoodieRecordPayload

结论

Apache Hudi 负载类Payload使用案例剖析的更多相关文章

随机推荐

热门专题