Apache Hudi 0.8.0版本重磅发布

leesf 2024-09-02 09:21:47 原文

1. 重点特性

1.1 Flink集成

自从Hudi 0.7.0版本支持Flink写入后，Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline；支持Flink写入MOR表；Flink批量读取COW和MOR表；流式读取MOR表；同时支持了Hudi作为Source和Sink的Flink SQL Connector，在Hudi 0.8.0版本发布后，用户可以使用Flink1.11+体验上述所有新特性。

想了解更多Flink写入Hudi的细节，请参考 RFC-24

具体教程可参考：重磅！解锁Apache Flink读写Apache Hudi新姿势

1.2 并发写

单表支持并发写特性在Hudi社区呼声比较高，0.8.0版本Hudi使用乐观锁并发控制支持多客户端并发写同一张表，Hudi支持文件级别乐观锁并发控制，如两个commit(或写入客户端)同时写入一张表，如果两个commit修改的文件不相同，两个客户端的写入都可以成功，现在这个功能标记为experimental，用户可以基于Zookeeper和HiveMetastore来提供锁服务，后续还会考虑提供基于文件的锁服务。

想了解更多并发写入细节，请参考RFC-22，想使用并发写功能，可参考并发控制配置。

1.3 写入端改进

Flink客户端支持InsertOverwrite
Java客户端支持COW表

1.4 查询端改进

支持Spark Structured Streaming流式读取Hudi表
改进Metadata Table的性能
改进Clustering的性能

2. 迁移指南

如果从小于0.5.3版本迁移，请参考每个版本迁移指南
0.6.0版本之后未引入新的表版本
HoodieRecordPayload接口被标记为deprecated，重新引入了包含properties参数的接口，欢迎迁移至新接口，老接口将在0.9.0版本移除，请尽快迁移。

3. 总结

0.8.0版本与Flink做了更深度的集成，借助Flink和Hudi构建更实时的数据湖，同时0.8.0版本还支持了Flink和Spark的流批读写，Hudi可作为流批一体的统一数据存储层。

4. 感谢

感谢参与0.8.0版本的所有贡献者，欢迎广大数据湖爱好者加入Apache Hudi社区，欢迎star & fork https://github.com/apache/hudi

源码下载

源码下载 : Apache Hudi 0.8.0 Source Release (asc, sha512)
maven仓库包地址： [地址](

Apache Hudi 0.8.0版本重磅发布的更多相关文章

Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2 ...
Apache Hudi 0.6.0版本重磅发布
1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6 ...
Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
Flutter 1.17版本重磅发布
Flutter 1.17 是2020年的第一个稳定版本,此版本包括iOS平台Metal支持(性能更快),新的Material组件,新的Network跟踪工具等等! 对所有人来说,今年是充满挑战的一年. ...
重磅！Vertica集成Apache Hudi指南
1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi. 在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访 ...
官宣！ASF官方正式宣布Apache Hudi成为顶级项目
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apac ...
Apache Hudi C位！云计算一哥AWS EMR 2020年度回顾
1. 概述成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规 ...
真香！PySpark整合Apache Hudi实战
1. 准备 Hudi支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动 # pyspark export PYSPARK_PYTHON=$(which python ...
Apache Hudi异步Compaction方式汇总
本篇文章对执行异步Compaction的不同部署模型一探究竟. 1. Compaction 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件 ...

随机推荐

React In Depth
React In Depth React Component Lifecycle https://reactjs.org/docs/react-component.html https://react ...
GitHub for mobile
GitHub for mobile https://github.com/mobile
C++算法代码——标题统计
题目来自:http://218.5.5.242:9018/JudgeOnline/problem.php?id=2327 题目描述凯凯刚写了一篇美妙的作文,请问这篇作文的标题中有多少个字符? 注意: ...
Google单元测试框架gtest之官方sample笔记1--简单用例
1.0 通用部分和常见的测试工具一样,gtest提供了单体测试常见的工具和组件.比如判断各种类型的值相等,大于,小于等,管理多个测试的测试组如testsuit下辖testcase,为了方便处理初始化 ...
TERSUS无代码开发(笔记05)-简单实例电脑端页面设计
案例笔记电脑端页面设计 1.新建项目(请假管理qjgl) 2.开发软件界面介绍(常用的功能按键) 3.目录中显示元件对象 4.对元件对象的操作主要方式是双击(双击哪个元件, ...
Django之csrf中间件及auth模块使用
目录一.基于配置文件的编程思想 1. importlib 模块 2. 配置文件二.跨站请求伪造(csrf) 1.csrf简介以及由来 2.Django中的csrf中间件如何使用 2.1 普通for ...
ImportError: No module named _ssl解决方法
import ssl时出现ImportError: No module named _ssl错误是因为咱安装Python的时候没有把ssl模块编译进去导致的. 解决步骤: 系统没有openssl,手动 ...
vue打开新窗口并且实现传参，有图有真相
我要实现的功能是打开一个新窗口用来展示新页面,而且需要传参数,并且参数不能显示在地址栏里面,而且当我刷新页面的时候,传过来的参数不能丢失,要一直存在,除非我手动关闭这个新窗口,即浏览器的标签页. 通过 ...
Typescript开发学习总结（附大量代码）
如果评定前端在最近五年的重大突破,Typescript肯定能名列其中,重大到各大技术论坛.大厂面试都认为Typescript应当是前端的一项必会技能.作为一名消息闭塞到被同事调侃成"新石器时 ...
Qt update刷新之源码分析(三)
大家好,我是IT文艺男,来自一线大厂的一线程序员上次视频给大家从源码层面剖析了Qt刷新事件(QEvent::UpdateRequest)的处理流程,这次视频主要从源码层面剖析对刷新事件的进一步处理, ...