特性速览| Apache Hudi 0.5.3版本正式发布
1. 下载连接
- 源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512)
- 0.5.3版本相关jar包地址:https://repository.apache.org/#nexus-search;quick~hudi
2. 迁移指南
- 这是一个bugfix版本,从0.5.2升级时不需要任何特殊的迁移步骤。如果要从早期版本"X"升级,请阅读"X"和0.5.3之间的每个后续版本的迁移指南。
- 0.5.3是Hudi毕业后的第一个版本,因此所有hudi jar的版本名称中不再带有"-incubating"。在所有提及hudi版本的地方,请确保不再存在"-incubating"。
例如,hudi-spark-bundle pom依赖如下所示:
<dependency>
<groupId>org.apache.hudi</groupId>
<artifactId>hudi-spark-bundle_2.12</artifactId>
<version>0.5.3</version>
</dependency>
3. 关键特性
Hudi内置支持
aliyun OSS
对象存储。默认情况下将为delta-streamer和spark datasource写入启用Embedded Timeline Server。在此版本之前,此功能处于实验模式,embeddedTimeline Server在Spark Driver中缓存文件列表,并提供Restful接口给Spark Writer任务调用来减少了每次写入时的list文件列表的操作,此优化对云上对象存储非常友好。
默认情况下为delta-streamer和Spark datasource写入均启用"增量清理(incremental cleaning)"。在此版本之前,此功能还处于实验模式,在稳定状态下,增量清理避免了扫描所有分区的昂贵步骤,而是使用Hudi元数据来查找要清理的文件,此优化也对云上对象存储非常友好。
支持将Delta-Streamer配置文件放置在与实际数据不同的文件系统中。
Hudi Hive Sync现在支持按日期类型列分区的表。
Hudi Hive Sync现在支持直接通过Hive MetaStore进行同步。您只需要设置
hoodie.datasource.hive_sync.use_jdbc = false
。Hive Metastore Uri将从environment中隐式读取。例如当通过Spark datasource写入时,spark.write.format(“hudi”)
.option(…)
.option(“hoodie.datasource.hive_sync.username”, “<user>”)
.option(“hoodie.datasource.hive_sync.password”, “<password>”)
.option(“hoodie.datasource.hive_sync.partition_fields”, “<partition_fields>”)
.option(“hoodie.datasource.hive_sync.database”, “<db_name>”)
.option(“hoodie.datasource.hive_sync.table”, “<table_name>”)
.option(“hoodie.datasource.hive_sync.use_jdbc”, “false”)
.mode(APPEND)
.save(“/path/to/dataset”)
支持Presto查询MoR表时Hudi侧的改造。
其他与Writer Performance相关的缺陷修复。
- 现在DataSource Writer避免了写入后不必要的数据加载。
- Hudi Writer现在利用spark的并发来加速小文件查找。
4. 感谢
感谢如下贡献者(排名不分先后): @bhasudha,@yanghua ,@ddong ,@smarthi ,@afilipchik,@zhedoubushishi,@umehrot2,@varadar,@ffcchi,@bschell,@vinothchandar ,@shenh062326,@lamber-ken,@zhaomin1423,@EdwinGuo,@prashantwason ,@pratyakshsharma,@dengziming ,@AakashPradeep,@Jecarm ,@xushiyan ,@cxzl25,@garyli1019 ,@rolandjohann ,@nsivabalan,@leesf ,@jfrazee
特性速览| Apache Hudi 0.5.3版本正式发布的更多相关文章
- Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2 ...
- Apache Hudi 0.6.0版本重磅发布
1. 下载信息 源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南 如果您从0.5.3以前的版本迁移至0.6 ...
- Apache Hudi 0.8.0版本重磅发布
1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引 ...
- Apache Pulsar 2.6.1 版本正式发布:2.6.0 功能增强版,新增 OAuth2 支持
在 Apache Pulsar 2.6.0 版本发布后的 2 个月,2020 年 8 月 21 日,Apache Pulsar 2.6.1 版本正式发布! Apache Pulsar 2.6.1 修复 ...
- golang1.16新特性速览
今天是假期最后一天,明天起大家也要陆续复工了.golang1.16也在今天正式发布了. 原定计划是2月1号年前发布的,不过迟到也是golang的老传统了,正好也趁着最后的假期快速预览一下golang1 ...
- Apache Hudi 0.7.0版本重磅发布
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增 ...
- Python 3.9 新特性速览
国庆假期,Python 社区发布了 3.9 版本的第一个 stable release. 相比于 3.8,Python 3.9 新特性众多,但不少特性与大多数 Python"使用者" ...
- 官宣!AWS Athena正式可查询Apache Hudi数据集
1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入) ...
- Apache Hudi又双叕被国内顶级云服务提供商集成了!
是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和 ...
随机推荐
- Magicodes.IE 2.2发布
Magicodes.IE 导入导出通用库,支持Dto导入导出以及动态导出,支持Excel.Word.Pdf.Csv和Html.已加入NCC开源组织. Magicodes.IE 2.0发布 Magico ...
- AES128_CBC模式加密
高级加密标准(英语:Advanced Encryption Standard,缩写:AES),在密码学中又称Rijndael加密法,是美国联邦政府采用的一种区块加密标准.这个标准用来替代原先的DES, ...
- LDA模型笔记
“LDA(Latent Dirichlet Allocation)模型,模型主要解决文档处理领域的问题,比如文章主题分类.文章检测.相似度分析.文本分段和文档检索等问题.LDA主题模型是一个三层贝叶斯 ...
- MySQL国内镜像下载地址
最近重新下载MySQL发现官网下载速度不是一般的慢,官网下载要几个钟而且一不注意就被取消下载了,实在受不了 可以使用sohu的镜像:http://mirrors.sohu.com/mysql/MySQ ...
- Java实现 蓝桥杯 算法训练 审美课
算法训练 审美课 时间限制:1.0s 内存限制:256.0MB 提交此题 问题描述 <审美的历程>课上有n位学生,帅老师展示了m幅画,其中有些是梵高的作品,另外的都出自五岁小朋友之手.老师 ...
- Java 第十一届 蓝桥杯 省模拟赛 户户通电(图算法)
户户通电 题目 问题描述 2015年,全中国实现了户户通电.作为一名电力建设者,小明正在帮助一带一路上的国家通电. 这一次,小明要帮助 n 个村庄通电,其中 1 号村庄正好可以建立一个发电站,所发的电 ...
- Java实现 LeetCode 377 组合总和 Ⅳ
377. 组合总和 Ⅳ 给定一个由正整数组成且不存在重复数字的数组,找出和为给定目标正整数的组合的个数. 示例: nums = [1, 2, 3] target = 4 所有可能的组合为: (1, 1 ...
- java实现猜生日
** 猜生日** 今年的植树节(2012年3月12日),小明和他的叔叔还有小伙伴们一起去植树.休息的时候,小明的同学问他叔叔多大年纪,他叔叔说:"我说个题目,看你们谁先猜出来!" ...
- (五)SQLMap工具检测SQL注入漏洞、获取数据库中的数据
目录结构 一.判断被测url的参数是否存在注入点 二.获取数据库系统的所有数据库名称(暴库) 三.获取Web应用当前所连接的数据库 四.获取Web应用当前所操作的DBMS用户 五.列出数据库中的所有用 ...
- OSI七层模型及各层作用
物理层:建立.维护.断开物理连接 数据链路层:该层的作用包括了物理地址寻址,数据的成帧,流量控制,数据的检错,重发等.该层控制网络层与物理层之间的通信,解决的是所传输数据的准确性的问题.为了保证传输, ...