Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，Apache Hudi 社区终于发布了0.5.1版本，这是Apache Hudi发布的第二个Apache版本，该版本中一些关键点如下

版本升级
- 将Spark版本从2.1.0升级到2.4.4
- 将Avro版本从1.7.7升级到1.8.2
- 将Parquet版本从1.8.1升级到1.10.1
- 将Kafka版本从0.8.2.1升级到2.0.0，这是由于将spark-streaming-kafka artifact从0.8_2.11升级到0.10_2.11/2.12间接升级

重要：Hudi 0.5.1版本需要将spark的版本升级到2.4+

Hudi现在支持Scala 2.11和2.12，可以参考Scala 2.12构建来使用Scala 2.12来构建Hudi，另外， hudi-spark, hudi-utilities, hudi-spark-bundle and hudi-utilities-bundle包名现已经对应变更为 hudi-spark_{scala_version}, hudi-spark_{scala_version}, hudi-utilities_{scala_version}, hudi-spark-bundle_{scala_version}和 hudi-utilities-bundle_{scala_version}. 注意这里的scala_version为2.11或2.12。
在0.5.1版本中，对于timeline元数据的操作不再使用重命名方式，这个特性在创建Hudi表时默认是打开的。对于已存在的表，这个特性默认是关闭的，在已存在表开启这个特性之前，请参考这部分(https://hudi.apache.org/docs/deployment.html#upgrading)。若开启新的Hudi timeline布局方式(layout)，即避免重命名，可设置写配置项hoodie.timeline.layout.version=1。当然，你也可以在CLI中使用repair overwrite-hoodie-props命令来添加hoodie.timeline.layout.version=1至hoodie.properties文件。注意，无论使用哪种方式，在升级Writer之前请先升级Hudi Reader(查询引擎)版本至0.5.1版本。
CLI支持repair overwrite-hoodie-props来指定文件来重写表的hoodie.properties文件，可以使用此命令来的更新表名或者使用新的timeline布局方式。注意当写hoodie.properties文件时（毫秒），一些查询将会暂时失败，失败后重新运行即可。
DeltaStreamer用来指定表类型的参数从--storage-type变更为了--table-type，可以参考wiki来了解更多的最新变化的术语。
配置Kafka Reset Offset策略的值变化了。枚举值从LARGEST变更为LATEST，SMALLEST变更为EARLIEST，对应DeltaStreamer中的配置项为auto.offset.reset。
当使用spark-shell来了解Hudi时，需要提供额外的--packages org.apache.spark:spark-avro_2.11:2.4.4，可以参考quickstart了解更多细节。
Key generator（键生成器）移动到了单独的包下org.apache.hudi.keygen，如果你使用重载键生成器类（对应配置项：hoodie.datasource.write.keygenerator.class），请确保类的全路径名也对应进行变更。
Hive同步工具将会为MOR注册带有_ro后缀的RO表，所以查询也请带_ro后缀，你可以使用--skip-ro-suffix配置项来保持旧的表名，即同步时不添加_ro后缀。
0.5.1版本中，供presto/hive查询引擎使用的hudi-hadoop-mr-bundle包shaded了avro包，以便支持real time queries（实时查询）。Hudi支持可插拔的记录合并逻辑，用户只需自定义实现HoodieRecordPayload。如果你使用这个特性，你需要在你的代码中relocate avro依赖，这样可以确保你代码的行为和Hudi保持一致，你可以使用如下方式来relocation。
```
<relocation>

  <pattern>org.apache.avro.</pattern>

  <shadedPattern>org.apache.hudi.org.apache.avro.</shadedPattern>

</relocation>
```
DeltaStreamer更好的支持Delete，可参考blog了解更多细节。
DeltaStreamer支持AWS Database Migration Service(DMS) ，可参考blog了解更多细节。
支持DynamicBloomFilter（动态布隆过滤器），默认是关闭的，可以使用索引配置项hoodie.bloom.index.filter.type=DYNAMIC_V0来开启。
HDFSParquetImporter支持bulkinsert，可配置--command为bulkinsert。
支持AWS WASB和 WASBS云存储。

Apache Hudi 0.5.1版本重磅发布的更多相关文章

特性速览| Apache Hudi 0.5.3版本正式发布
1. 下载连接源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址:https://repository.apac ...
Apache Hudi 0.8.0版本重磅发布
1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引 ...
Apache Hudi 0.6.0版本重磅发布
1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6 ...
Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
Flutter 1.17版本重磅发布
Flutter 1.17 是2020年的第一个稳定版本,此版本包括iOS平台Metal支持(性能更快),新的Material组件,新的Network跟踪工具等等! 对所有人来说,今年是充满挑战的一年. ...
官宣！AWS Athena正式可查询Apache Hudi数据集
1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入) ...
超级重磅！Apache Hudi多模索引对查询优化高达30倍
与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同. 在这篇博客中,我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版 ...
实战| 配置DataDog监控Apache Hudi应用指标
1. 可用性在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿. 2. 简介 ...
官宣！ASF官方正式宣布Apache Hudi成为顶级项目
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apac ...

随机推荐

VIM 用正则表达式,非贪婪匹配,匹配竖杠,竖线, 匹配中文,中文正则,倒数第二列, 匹配任意一个字符 :
VIM 用正则表达式批量替换文本,多行删除,复制,移动在VIM中用正则表达式批量替换文本,多行删除,复制,移动 :n1,n2 m n3 移动n1-n2行(包括n1,n2)到n3行之下: ...
jmeter安装配置教程及使用
背景: 因为双11,黑五快到了,所有的互联网电商行业都要做一件事情,那就是压测,常见的压测很多区分,接口压测和全链路压测.线上压测和线下压测,单元压测和功能压测.我们这里介绍一下接口压测和全链路压测. ...
试着用教程跑cifar10数据
1.terminal里已经可import torchvision了,为什么Spyder里还是不能import torchvision 重启. 2. trainset = torchvision.dat ...
对sql server查询速度的优化
处理百万级以上的数据提高查询速度的方法: 1.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 2.对查询进行优化,应尽量避免全表扫描,首先应考 ...
浅析Java hashCode()方法
散列码(hash code)是由对象导出的一个整数值. 散列码没有规律,两个不同的对象x和y,x.hashCode()与y.hashCode()基本上不会相同. public static voi ...
洛谷P1020 导弹拦截题解 LIS扩展题 Dilworth定理
题目链接:https://www.luogu.com.cn/problem/P1020 题目大意: 给你一串数,求: 这串数的最长不上升子序列的长度: 最少划分成多少个子序列是的这些子序列都是不上升子 ...
python版飞机大战代码简易版
# -*- coding:utf-8 -*- import pygame import sys from pygame.locals import * from pygame.font import ...
在.NET Core中批量注入Grpc服务
GRPC 是谷歌发布的一个开源.高性能.通用RPC服务,尽管大部分 RPC 框架都使用 TCP 协议,但其实 UDP 也可以,而 gRPC 干脆就用了 HTTP2.还有就是它具有跨平台.跨语言等特性 ...
springboot多环境(dev,test,prod)配置
前情提要在我们开发工作中,常常因为配置的问题,搞得头昏脑大.开发环境.测试环境.配置各不相同,数据库.redis.注册中心等等参数都不一致,如果放在同一个配置文件,就会发现诸多注释,发布不同的环境, ...
AcWing 247. 亚特兰蒂斯 | 扫描线
传送门题目描述有几个古希腊书籍中包含了对传说中的亚特兰蒂斯岛的描述. 其中一些甚至包括岛屿部分地图. 但不幸的是,这些地图描述了亚特兰蒂斯的不同区域. 您的朋友Bill必须知道地图的总面积. 你自 ...

Apache Hudi 0.5.1版本重磅发布

Apache Hudi 0.5.1版本重磅发布的更多相关文章

随机推荐

热门专题