基于iceberg的master分支的9b6b5e0d2(2022-2-9)。

参数说明

1、PARTIAL_PROGRESS_ENABLED(partial-progress.enabled)

默认为 false。该参数能够让合并任务以group为单位做提交,当其中一个group任务失败,可以单独对该group任务重试。

2、USE_STARTING_SEQUENCE_NUMBER(use-starting-sequence-number)

默认为 true。

该参数使用做合并时的sequenceNumber作为新的数据文件的sequenceNumber。

测试

一、append方式生成 a,b,c三个snapshot,基于b做文件合并。

模拟的场景是:已存在a,b快照,现在基于b快照做小文件合并,但任务还未完成时,另一条数据流基于b快照做了append类型的数据:

右:USE_STARTING_SEQUENCE_NUMBER,下:PARTIAL_PROGRESS_ENABLED true false
true 成功 成功
false 成功 成功
  • 成功:生成新的快照,最终snapshot是 a,b,c,d。

  • 新生成的大文件是基于a,b的数据文件的总和,

  • 快照d中包含了c的数据,以及基于a,b合并的数据。

  • a,b,c,d对应的squenceNumber分别是1,2,3,4:

    USE_STARTING_SEQUENCE_NUMBER 为 true时,d里面生成的新的大文件对应的manifest的squeceid是用的以前的2,删除的manifest用的是新的id4

    USE_STARTING_SEQUENCE_NUMBER 为 false 时,d里面合并任务使用的全都是最新的id

结论:

1、纯append流的数据,做小文件合并都能成功。

2、可以通过设置 USE_STARTING_SEQUENCE_NUMBER 字段来控制合并任务中的manifest的squencyNumber。

二、append方式生成 a,b,c 三个 snapshot,先基于c做一次合并,合并成功后,基于c再做一次合并。

模拟的场景是,基于c快照做小文件合并,该任务还未完成,又启动了一个基于c快照做小文件合并的任务:

右:USE_STARTING_SEQUENCE_NUMBER,下:PARTIAL_PROGRESS_ENABLED true false
true 成功,但没生成新快照 成功,但没生成新快照
false 失败 失败
  • 成功,但没生成新快照:只是表示该任务是完整执行了,没有出现异常退出的情况,但最终并未生成新的快照。PARTIAL_PROGRESS_ENABLED 设置 true,会打印出异常信息,但由于是部分提交,这些异常被忽略,最终程序执行成功,但也没有生成新的 snapshot。Failure during rewrite commit process, partial progress enabled. Ignoring。
  • 失败:提示 Cannot commit rewrite because of a ValidationException or CommitFailedException. This usually means that this rewrite has conflicted with another concurrent Iceberg operation. To reduce the likelihood of conflicts, set partial-progress.enabled which will break up the rewrite into multiple smaller commits controlled by partial-progress.max-commits. Separate smaller rewrite commits can succeed independently while any commits that conflict with another Iceberg operation will be ignored. This mode will create additional snapshots in the table history, one for each commit.

结论:目前功能上不能基于同一个快照做多次合并,只会成功一次。

三、append方式生成 a,b 两个snapshot,对a的数据做更新生成c,再基于b做文件合并。

模拟的场景是:基于b快照做合并,此时还未完成,另一条数据流对a快照中的数据做了更新,且提交成功生成了c快照:

右:USE_STARTING_SEQUENCE_NUMBER,下:PARTIAL_PROGRESS_ENABLED true false
true 成功 成功,但没生成新快照
false 成功 失败
  • 失败:提示 Cannot commit, found new delete for replaced data file。
  • 成功,生成最新快照d,生成快照a,b中数据合并的大文件
  • 成功,但没生成新的快照:参考上面说明

结论:在合并的过程中,有另一条数据流对需要合并的数据做修改,可以通过设置 USE_STARTING_SEQUENCE_NUMBER 来使任务成功。

四、append方式生成 a,b,c 三个snapshot,对c的数据做更新生成d,再基于b做文件合并。

模拟的场景:基于b快照做合并,此时还未完成,另一条数据流先做append,生成了c快照,然后又对c快照里的数据做修改生成了快照d:

右:USE_STARTING_SEQUENCE_NUMBER,下:PARTIAL_PROGRESS_ENABLED true false
true 成功 成功,但没生成新快照
false 成功 失败
  • 失败,提示:

    Cannot commit, found new delete for replaced data file

    Cannot commit rewrite because of a ValidationException or CommitFailedException. This usually means that this rewrite has conflicted with another concurrent Iceberg operation. To reduce the likelihood of conflicts, set partial-progress.enabled which will break up the rewrite into multiple smaller commits controlled by partial-progress.max-commits. Separate smaller rewrite commits can succeed independently while any commits that conflict with another Iceberg operation will be ignored. This mode will create additional snapshots in the table history, one for each commit.

因为在获取文件的时候,此时只能读取到a和b下的数据文件,a和b下没有delete文件,所以没有读取a和b下数据文件的min和max。 在做merge的时候,最新的snapshot是d,此时有delete文件,所以需要判断该delete文件是否能够匹配上前面读取的数据文件。匹配条件有两个,一个是sequenceNumber,一个是最大最小值是否有交集。delete的文件是后生成的,它的sequenceNumber肯定是大于前面a,b下的数据文件,所以该条件满足。因为在读取a,b下的数据文件的时候,没有读取min,max,导致不能够跟delete文件做值的交叉范围判断,所以data文件中被关联了delete文件,所以这种情况下,虽然只对 a和b做合并,且后续修改的数据文件没有被修改,但依然会合并失败。

如果在读取a,b下数据文件的时候,把对应的min,max也读取上来,那么就可以合并成功,对应流程在 ManifestGroup.planFiles中,读取内容由 columns 决定。

  • 成功:生成最新快照e,最终的快照为:a,b,c,d,e
  • 成功,但没生成新的快照:参考上面说明

结论:虽然后续修改的数据并不在合并的数据中,但USE_STARTING_SEQUENCE_NUMBER为false依然会失败,具体原因已在上面说明。

结论

1、PARTIAL_PROGRESS_ENABLED

当该参数为true时,虽然它最终能让任务执行完成,但实际上它忽略子提交失败的情况,所以实际有没有做合并与该参数无关。

2、USE_STARTING_SEQUENCE_NUMBER

设置该参数为true,可以修改新生成的dataFile和manifest的sequenceNumber为原来的number,这样在读取数据的时候,就可以把delteFile应用到新生成的dataFile中了,可以解决大多数数据冲突的情况。

iceberg合并小文件冲突测试的更多相关文章

  1. HDFS 07 - HDFS 性能调优之 合并小文件

    目录 1 - 为什么要合并小文件 2 - 合并本地的小文件,上传到 HDFS 3 - 合并 HDFS 的小文件,下载到本地 4 - 通过 Java API 实现文件合并和上传 版权声明 1 - 为什么 ...

  2. Hadoop HDFS编程 API入门系列之合并小文件到HDFS(三)

    不多说,直接上代码.  代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs7; import java.io.IOException;import ja ...

  3. [转载]mapreduce合并小文件成sequencefile

    mapreduce合并小文件成sequencefile http://blog.csdn.net/xiao_jun_0820/article/details/42747537

  4. Hive 利用 on tez 引擎 合并小文件

    Hive 利用 on tez 引擎 合并小文件 标签(空格分隔): Hive \[f(N) + \sum_{i=2}^N f(N-i+1)*X_i\] SET hive.exec.dynamic.pa ...

  5. hadoop 使用map合并小文件到SequenceFile

    上一例是直接用SequenceFile的createWriter来实现,本例采用mapreduce的方式. 1.把小文件整体读入需要自定义InputFormat格式,自定义InputFormat格式需 ...

  6. Hadoop合并小文件的几种方法

    1.Hadoop HAR 将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成: 缺点: 一旦创建就不能修改,也不支 ...

  7. hadoop spark合并小文件

      一.输入文件类型设置为 CombineTextInputFormat hadoop job.setInputFormatClass(CombineTextInputFormat.class) sp ...

  8. Facebook-Haystack合并小文件

    1.原文 https://www.usenix.org/legacy/event/osdi10/tech/full_papers/Beaver.pdf 2.翻译版 http://www.importn ...

  9. Hadoop实战项目:小文件合并

    项目背景 在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M),早期的版本所定义的小文件是64M,这里的hadoop-2.2.0所定义的小 ...

随机推荐

  1. 二维数组与稀疏数组的转换---dataStructures

    首先我们看一个需求 在11 * 11 的五子棋的棋盘中 我们使用0代表十字交叉点也是无效的数据 用1代表黑棋 用2代表蓝棋 那么所看到的棋盘如下 改用数字显示后就如一下样式 现在我们需要将怎个棋盘存储 ...

  2. 【Java】回形数

    回形数 键盘读入一个整数n(1-20),以n为矩阵大小,把1,2,3,4,5-按顺时针螺旋的形式填入. import java.util.Scanner; public class HuiXingSh ...

  3. 计算机视觉--CV技术指南文章汇总

    前言  本文汇总了过去本公众号原创的.国外博客翻译的.从其它公众号转载的.从知乎转载的等一些比较重要的文章,并按照论文分享.技术总结三个方面进行了一个简单分类.点击每篇文章标题可阅读详细内容 欢迎关注 ...

  4. Android学习笔记2

    4,用intent在activity之间传递数据(两个Activity可能不是在一个应用程序中) (1),从MainActivity向HelloActivity传递参数123 package com. ...

  5. dubbo-gateway 高性能dubbo网关

    dubbo-gateway dubbo-gateway 提供了http协议到dubbo协议的转换,但[并非]使用dubbo的[泛化]调用(泛化调用性能比普通调用有10-20%的损耗,通过普通异步的调用 ...

  6. linux网卡知识

    使用 Vim 文本编辑器来配置网卡设备的绑定参数.网卡绑定的理论知识类似于前面学习的 RAID 硬盘组,我们需要对参与绑定的网卡设备逐个进行"初始设置".需要注意的是,这些原本独立 ...

  7. 守护石谈学习Java之路

    ​这次在CSDN Blink发表了几篇关于Java编程学习的小作文,讲述了Java工程师的成长路线.Java学习的技能树和入门工作要关注的核心问题,我继续做一次文章的整合与延展,以文章的形式发表出来, ...

  8. ApacheCN 深度学习译文集 20201229 更新

    新增了七个教程: TensorFlow 和 Keras 应用开发入门 零.前言 一.神经网络和深度学习简介 二.模型架构 三.模型评估和优化 四.产品化 TensorFlow 图像深度学习实用指南 零 ...

  9. SP19149 INS14H - Virus Revisited

    可以发现,如果一个整体一起考虑是不能找到一个合适的状态来描述这个情形的. 因此可以考虑寻找整体的反面,也就是将每个维度分开考虑. 不难发现每个维度本质上是一样的,因此不需要考虑不同维度之间的区别. 那 ...

  10. EKS助力小白实践云原生——通过k8s部署wordpress应用

    目前云原生在大厂已经有了充分的实践,也逐渐向小厂以及非互联网公司推广.适逢12月20日,腾讯云原生[燎原社]精心打造了云原生在线技术工坊,让零基础的同学也能快速入门和实践 Docker 和 Kuber ...