1. 介绍

最近几周，人们对比较 Hudi、Delta 和 Iceberg 的表现越来越感兴趣。我们认为社区应该得到更透明和可重复的分析。我们想就如何执行和呈现这些基准、它们带来什么价值以及我们应该如何解释它们添加我们的观点。

2. 现有方法存在哪些问题？

最近 Databeans 发布了一篇博客，其中使用 TPC-DS 基准对 Hudi/Delta/Iceberg 的性能进行了正面比较。虽然很高兴看到社区挺身而出并采取行动提高对行业当前技术水平的认识，但我们发现了一些与实验进行方式和结果报告有关的问题，我们希望分享和今天更广泛地讨论。

作为一个社区，我们应该努力在发布基准时增加更严格的标准。我们相信这些是任何基准测试工作的关键原则：

可重现性：如果结果不可重现，读者别无选择，只能盲目相信表面上的结果。相反，应该记录基准，以便任何人都可以使用相同的工具获得相同的结果。
开放：为了获得相同的结果，确保用于基准测试的工具可用于检查正确性至关重要。
公平：随着正在测试的技术的复杂性不断增长，基准设置需要确保所有竞争者都使用记录在案的配置来测试工作负载。

关于这些基本问题，不幸的是，我们认为 Databeans 博客没有完整地分享结果是什么以及如何实现的。例如：

基准 EMR 运行时配置未完全披露：尚不清楚，例如Spark 的动态分配功能是否被禁用，因为它有可能对测量产生不可预测的影响。
用于基准测试的代码是 Delta 基准测试框架的扩展，不幸的是它也没有公开共享，因此无法查看或重复相同的实验。
无法访问代码也会影响分析应用于 Hudi/Delta/Iceberg 的配置的能力，这使得评估公平性具有挑战性

3. 我们建议如何运行基准测试

我们会定期运行性能基准测试，以确保一起提供Hudi 丰富的功能集与基于 Hudi 的 EB 数据湖的最佳性能。我们的团队在对复杂分布式系统（如 Apache Kafka 或 Pulsar）进行基准测试方面拥有丰富的经验，符合上述原则。

为确保已发布的基准符合以下原则：

我们关闭了 Spark 的动态分配功能，以确保我们在稳定的环境中运行基准测试，并消除 Spark 集群决定扩大或缩小规模时结果中的任何抖动。我们使用 EMR 6.6.0 版本，Spark 3.2.0 和 Hive 3.1.2（用于 HMS），具有以下配置（在创建时在 Spark EMR UI 中指定）有关如何设置 HMS 的更多详细信息，请按照说明进行操作在README文件中

[{

  "Classification": "spark-defaults",

  "Properties": {

    "spark.dynamicAllocation.enabled": "false"

  }

}, {

  "Classification": "spark",

  "Properties": {

    "maximizeResourceAllocation": "true"

  }

}, {

  "Classification": "hive-site",

  "Properties": {

    "javax.jdo.option.ConnectionURL": < hive_metastore_url > ,

    "javax.jdo.option.ConnectionDriverName": "org.mariadb.jdbc.Driver",

    "javax.jdo.option.ConnectionUserName": < username > ,

    "javax.jdo.option.ConnectionPassword": < password >

  }

}]

我们已经公开分享了我们对 Delta 基准测试框架的修改，以支持通过 Spark Datasource 或 Spark SQL 创建 Hudi 表。这可以在基准定义中动态切换。
TPC-DS 加载不涉及更新。 Hudi 加载的 databeans 配置使用了不适当的写入操作 upsert，而明确记录了 Hudi bulk-insert 是此用例的推荐写入操作。此外，我们调整了 Hudi parquet 文件大小设置以匹配 Delta Lake 默认值。

CREATE TABLE ...

USING HUDI

OPTIONS (

  type = 'cow',

  primaryKey = '...',

  precombineField = '',

  'hoodie.datasource.write.hive_style_partitioning' = 'true',

  -- Disable Hudi’s record-level metadata for updates, incremental processing, etc

  'hoodie.populate.meta.fields' = 'false',

  -- Use “bulk-insert” write-operation instead of default “upsert”

  'hoodie.sql.insert.mode' = 'non-strict',

  'hoodie.sql.bulk.insert.enable' = 'true',

  -- Perform bulk-insert w/o sorting or automatic file-sizing

  'hoodie.bulkinsert.sort.mode' = 'NONE',

  -- Increasing the file-size to match Delta’s setting

  'hoodie.parquet.max.file.size' = '141557760',

  'hoodie.parquet.block.size' = '141557760',

  'hoodie.parquet.compression.codec' = 'snappy',

  – All TPC-DS tables are actually relatively small and don’t require the use of MT table (S3 file-listing is sufficient)

  'hoodie.metadata.enable' = 'false',

  'hoodie.parquet.writelegacyformat.enabled' = 'false'

)

LOCATION '...'

Hudi 的起源植根于增量数据处理，以将所有老式批处理作业变成增量。因此，Hudi 的默认配置面向增量更新插入和为增量 ETL 管道生成更改流，而将初始负载视为罕见的一次性操作。因此需要更加注意加载时间才能与 Delta 相媲美。

4. 运行基准测试

4.1 加载

可以清楚地看到，Delta 和 Hudi 在 0.11.1 版本中的误差在 6% 以内，在当前 Hudi 的 master* 中误差在 5% 以内（我们还对 Hudi 的 master 分支进行了基准测试，因为我们最近在 Parquet 编码配置中发现了一个错误已及时解决）。

为 Hudi 在原始 Parquet 表之上提供的丰富功能集提供支持，例如：

增量处理（因为在时间戳 t 提交）
记录级索引（支持记录级查找、更新和删除），

还有更多，Hudi 在内部存储了一组额外的元数据以及每条称为元字段的记录。由于 tpc-ds 主要关注快照查询，在这个特定的实验中，这些字段已被禁用（并且未计算），Hudi 仍然将它们保留为空值，以便在未来打开它们而无需模式演进。添加五个这样的字段作为空值，虽然开销很低，但仍然不可忽略。

4.2 查询

正如我们所见，Hudi 0.11.1 和 Delta 1.2.0 的性能几乎没有区别，而且 Hudi 目前的 master 速度要快一些（~5%）。

您可以在 Google Drive 上的此目录中找到原始日志：

Hudi 0.11：加载/查询
Hudi master：加载/查询
Delta 1.2.0：加载/查询
Delta 2.0.0 rc1：加载/查询

要重现上述结果，请使用我们在 Delta 基准存储库中的分支并按照自述文件中的步骤进行操作。

5. 结论

总而言之，我们想强调开放性和可重复性在性能基准测试这样敏感和复杂的领域的重要性。正如我们反复看到的那样，获得可靠和值得信赖的基准测试结果是乏味且具有挑战性的，需要奉献、勤奋和严谨的支持。

展望未来，我们计划发布更多内部基准测试，突出显示 Hudi 丰富的功能集如何在其他常见行业工作负载中达到无与伦比的性能水平。敬请关注！

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准的更多相关文章

对话Apache Hudi VP, 洞悉数据湖的过去现在和未来
Apache Hudi是一个开源数据湖管理平台,用于简化增量数据处理和数据管道开发,该平台可以有效地管理业务需求,例如数据生命周期,并提高数据质量.Hudi的一些常见用例是记录级的插入.更新和删除.简 ...
官宣！Amazon EMR正式支持Apache Hudi
Apache Hudi是一个开源的数据管理框架,其通过提供记录级别的insert, update, upsert和delete能力来简化增量数据处理和数据管道开发.Upsert指的是将记录插入到现有 ...
使用Apache Hudi构建大规模、事务性数据湖
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主 ...
Robinhood基于Apache Hudi的下一代数据湖实践
1. 摘要 Robinhood 的使命是使所有人的金融民主化. Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础. 我们有各种数据源--OLTP 数据库.事件流和各种第 ...
基于 Apache Hudi 和DBT 构建开放的Lakehouse
本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse. 我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse. 在深 ...
写入Apache Hudi数据集
这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法, 以及通过使用Hudi数据源的upserts加快大型Spark作业的方法. 对于此类数据集,我们可以使 ...
Delta Lake基础操作和原理
目录 Delta Lake 特性 maven依赖使用aws s3文件系统快速启动基础表操作 merge操作 delta lake更改现有数据的具体过程 delta表schema 事务日志 delt ...
Apache Hudi 设计与架构最强解读
感谢 Apache Hudi contributor:王祥虎翻译&供稿. 欢迎关注微信公众号:ApacheHudi 本文将介绍Apache Hudi的基本概念.设计以及总体基础架构. 1.简 ...
实战 | 将Apache Hudi数据集写入阿里云OSS
1. 引入云上对象存储的廉价让不少公司将其作为主要的存储方案,而Hudi作为数据湖解决方案,支持对象存储也是必不可少.之前AWS EMR已经内置集成Hudi,也意味着可以在S3上无缝使用Hudi.当 ...

随机推荐

使用 awk 命令统计文本
2022-04-19 11:25:15.008,b4d13bfca8fe4b93a85e65a88520d945,LogScheduler#printLog,10ms,Y,xxxxxxxx 2022- ...
【Java面试】什么是幂等？如何解决幂等性问题？
一个在传统行业工作了7年的粉丝私信我. 他最近去很多互联网公司面试,遇到的很多技术和概念都没听过. 其中就有一道题是:"什么是幂等.如何解决幂等性问题"? 他说,这个概念听都没听过 ...
二叉树遍历在Unity中的实现
前言:今天放一天,想到要放国庆假了就心烦气躁,躺床上又焦虑,回想起面试官的一副扑克脸,马上跳起来看了看数据结构. 今天复习了二叉树,包括一些基本概念和特性,当看到二叉树遍历的章节时,马上联想到了Uni ...
Unicode和中午互转
import java.io.UnsupportedEncodingException; public class TestUnicode{ /* * 中文转unicode编码 */ public s ...
如何把你的 Android 使用得像 Linux
前言最近在学校里上课,老师讲的东西又听不进去,手里只有一个手机和一个平板,之前还可以用 ssh 连接云服务器玩点东西,但是我是用的软件 Juice ssh 并不是很友好,退出到后台一段时间后竟然会自 ...
keil的重复定义问题：Error: L6200E: Symbol F6x8 multiply defined
keil的重复定义问题:Error: L6200E: Symbol F6x8 multiply defined 在驱动oled和电容按键都遇到了,所以记录这个错误,以后再遇到也不至于手足无措 Keil ...
python生产exe文件yi以及解释器配置等
原文链接:https://blog.csdn.net/weixin_42691768/article/details/81044666 https://www.cnblogs.com/paulwhw/ ...
ShardingSphere-proxy-5.0.0部署之分表实现(一)
一.说明环境准备:JDK8+ mysql 5.x 官网:https://shardingsphere.apache.org/ 下载地址:https://archive.apache.org/ ...
使用 content-visibility 优化渲染性能
最近在业务中实际使用 content-visibility 进了一些渲染性能的优化. 这是一个比较新且有强大功能的属性.本文将带领大家深入理解一番. 何为 content-visibility? co ...
go程序添加远程调用tcpdump功能
最近开发的telemetry采集系统上线了.听起来高大上,简单来说就是一个grpc/udp服务端,用户的机器(路由器.交换机)将它们的各种统计数据上报采集.整理后交后端的各类AI分析系统分析.目前华为 ...

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准