特性速览| Apache Hudi 0.5.3版本正式发布

1. 下载连接

源代码下载：Apache Hudi 0.5.3 Source Release (asc, sha512)
0.5.3版本相关jar包地址：https://repository.apache.org/#nexus-search;quick~hudi

2. 迁移指南

这是一个bugfix版本，从0.5.2升级时不需要任何特殊的迁移步骤。如果要从早期版本"X"升级，请阅读"X"和0.5.3之间的每个后续版本的迁移指南。
0.5.3是Hudi毕业后的第一个版本，因此所有hudi jar的版本名称中不再带有"-incubating"。在所有提及hudi版本的地方，请确保不再存在"-incubating"。

例如，hudi-spark-bundle pom依赖如下所示：

<dependency>

	<groupId>org.apache.hudi</groupId>

	<artifactId>hudi-spark-bundle_2.12</artifactId>

	<version>0.5.3</version>

</dependency>

3. 关键特性

Hudi内置支持 aliyun OSS 对象存储。
默认情况下将为delta-streamer和spark datasource写入启用Embedded Timeline Server。在此版本之前，此功能处于实验模式，embeddedTimeline Server在Spark Driver中缓存文件列表，并提供Restful接口给Spark Writer任务调用来减少了每次写入时的list文件列表的操作，此优化对云上对象存储非常友好。
默认情况下为delta-streamer和Spark datasource写入均启用"增量清理(incremental cleaning)"。在此版本之前，此功能还处于实验模式，在稳定状态下，增量清理避免了扫描所有分区的昂贵步骤，而是使用Hudi元数据来查找要清理的文件，此优化也对云上对象存储非常友好。
支持将Delta-Streamer配置文件放置在与实际数据不同的文件系统中。
Hudi Hive Sync现在支持按日期类型列分区的表。

Hudi Hive Sync现在支持直接通过Hive MetaStore进行同步。您只需要设置hoodie.datasource.hive_sync.use_jdbc = false。Hive Metastore Uri将从environment中隐式读取。例如当通过Spark datasource写入时，

 spark.write.format(“hudi”)

 .option(…)

 .option(“hoodie.datasource.hive_sync.username”, “<user>”)

 .option(“hoodie.datasource.hive_sync.password”, “<password>”)

 .option(“hoodie.datasource.hive_sync.partition_fields”, “<partition_fields>”)

 .option(“hoodie.datasource.hive_sync.database”, “<db_name>”)

 .option(“hoodie.datasource.hive_sync.table”, “<table_name>”)

 .option(“hoodie.datasource.hive_sync.use_jdbc”, “false”)

 .mode(APPEND)

 .save(“/path/to/dataset”)

支持Presto查询MoR表时Hudi侧的改造。
其他与Writer Performance相关的缺陷修复。
- 现在DataSource Writer避免了写入后不必要的数据加载。
- Hudi Writer现在利用spark的并发来加速小文件查找。

4. 感谢

感谢如下贡献者（排名不分先后）: @bhasudha，@yanghua ，@ddong ，@smarthi ，@afilipchik，@zhedoubushishi，@umehrot2，@varadar，@ffcchi，@bschell，@vinothchandar ，@shenh062326，@lamber-ken，@zhaomin1423，@EdwinGuo，@prashantwason ，@pratyakshsharma，@dengziming ，@AakashPradeep，@Jecarm ，@xushiyan ，@cxzl25，@garyli1019 ，@rolandjohann ，@nsivabalan，@leesf ，@jfrazee

特性速览| Apache Hudi 0.5.3版本正式发布的更多相关文章

Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2 ...
Apache Hudi 0.6.0版本重磅发布
1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6 ...
Apache Hudi 0.8.0版本重磅发布
1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引 ...
Apache Pulsar 2.6.1 版本正式发布：2.6.0 功能增强版，新增 OAuth2 支持
在 Apache Pulsar 2.6.0 版本发布后的 2 个月,2020 年 8 月 21 日,Apache Pulsar 2.6.1 版本正式发布! Apache Pulsar 2.6.1 修复 ...
golang1.16新特性速览
今天是假期最后一天,明天起大家也要陆续复工了.golang1.16也在今天正式发布了. 原定计划是2月1号年前发布的,不过迟到也是golang的老传统了,正好也趁着最后的假期快速预览一下golang1 ...
Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
Python 3.9 新特性速览
国庆假期,Python 社区发布了 3.9 版本的第一个 stable release. 相比于 3.8,Python 3.9 新特性众多,但不少特性与大多数 Python"使用者" ...
官宣！AWS Athena正式可查询Apache Hudi数据集
1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入) ...
Apache Hudi又双叕被国内顶级云服务提供商集成了！
是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和 ...

随机推荐

Pandas读取文件报错UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 0: invalid start byte
pandas读取文件时报UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 0: invalid start by ...
附件2：async/await
在实际开发中总会遇到许多异步的问题,最常见的场景便是接口请求之后一定要等一段时间才能得到结果,如果遇到多个接口前后依赖,那么问题就变得复杂.大家都一直在尝试使用更好的方案来解决这些问题.最开始只能利用 ...
用tarjan求LCA板子（比倍增快）
懒!!直接转载!!!! https://solstice23.top/archives/62
[JavaWeb基础] 004.用JSP + SERVLET 进行简单的增加删除修改
上一次的文章,我们讲解了如何用JAVA访问MySql数据库,对数据进行增加删除修改查询.那么这次我们把具体的页面的数据库操作结合在一起,进行一次简单的学生信息操作案例. 首先我们创建一个专门用于学生管 ...
python 05—字典
一.字典的键是唯一的键:简单对象,例[字符串.整数.浮点数.bool值] list不能作为键,但可以作为值. 例: score = { '萧峰' : 95, '段誉' : 97, '虚竹' : 89 ...
Rocket - interrupts - Xbar
https://mp.weixin.qq.com/s/icPGf4KdSOudwuNpLxdo7w 简单介绍Xbar的实现. 1. 简单介绍 IntXbar主要用于把上游多个中断源的中断组合在一起,然 ...
Chisel3 - bind - Wire, Reg, MemPort
https://mp.weixin.qq.com/s/AxYlRtAXjd55eoGX5l1W-A 模块(Module)从输入端口(input ports)接收输入,经过内部实现的转换逻辑,从输出 ...
核心记账业务可用jdk7的PriorityBlockingQueue优先阻塞队列结合乐观锁实现
-- 1.优先级阻塞队列当前核心记账业务是悲观锁实现,但考虑到高并发和死锁的问题,可以用PriorityBlockingQueue优先阻塞队列结合乐观锁实现,对于并发时出现锁无法update时可以重 ...
使用turtle库绘制一个红色五角星图形‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪
import turtle n = eval(input("请输入五角星的长度")) turtle.begin_fill() #开始填充颜色 i = 0 while i < ...
CPU亲和度
CPU亲和度(CPU Affinity),就是将一个进程或者线程强制绑定在CPU的某一个core上运行. 参考:https://www.cnblogs.com/zhangxuan/p/6427533. ...

特性速览| Apache Hudi 0.5.3版本正式发布

1. 下载连接

2. 迁移指南

3. 关键特性

4. 感谢

特性速览| Apache Hudi 0.5.3版本正式发布的更多相关文章

随机推荐

热门专题