重点特性

1. Clustering

0.7.0版本中支持了对Hudi表数据进行Clustering（对数据按照数据特征进行聚簇，以便优化文件大小和数据布局），Clustering提供了更灵活地方式增加文件大小，有了Clustering特性，便可更快速地摄取数据，然后聚簇为更大的文件，实验数据表明查询性能可以提升3_{4倍，文件数可以减少10}20倍；另外Clustering对于查询侧优化也很明显，在查询时通常会基于字段进行Clustering，通过完全跳过一些文件来极大提升查询性能，这与云数仓Snowflake提供的Clustering功能非常类似，我们非常高兴地宣称这个特性在0.7.0版本中完全开源免费。

想要了解更多Clustering细节，可以参考RFC-19，可以查阅这些配置来在你的数据管道中启用Clustering，现在Hudi支持同步和异步的Clustering模式。

2. Metadata表

Hudi项目始于Uber，开始是基于HDFS实现的数据湖，对于云上对象存储的数据湖性能不如HDFS。在0.7.0版本，我们解决了该问题，即支持了内部Metadata表，此表可存储索引数据，其他元数据信息等。

Metadata表的实现使用了Hudi MOR表，这意味着像其他任何Hudi表一样，可以被压缩（Compaction）、清理（Clean）、增量更新（incrementally updated）。而且与其他项目中的类似实现不同，我们选择将文件列表等信息索引为HFile格式（格式可插拔），HFile提供了很好的点查性能，可以高效获取分区文件列表等信息。

在0.7.0版本中，在写入端配置hoodie.metadata.enable=true即可构建Metadata表，这样后续操作将不再调用fs.listStatus()接口，我们引入了一种同步机制来保证对数据timeline中进行的文件新增/删除操作都会同步到Metadata表。

测试有25W个文件的表，Metadata表相比使用Spark并发Listing要快2~3倍，更多设计细节可查阅RFC-15，其他Metadata表相关配置可参考这里，提供了参数以便在生产环境中安全使用该特性。

3. Flink/Java客户端

Hudi最开始设计时依赖Spark，但随着项目成为Apache顶级项目，我们意识到需要抽象内部表格式、表服务、写入层的代码以支持更多的引擎。在0.7.0版本，我们完成了写入层的解耦，添加了Flink和Java客户端，现在你可以使用HoodieFlinkStreamer来消费Kafka中的数据，以写入Hudi的COW表中。

4. 写入端优化

Spark3支持；0.7.0版本支持使用Spark3进行写入和查询，请注意使用scala 2.12版本的hudi-spark-bundle包；
并行Listing；我们已将所有List操作移至HoodieTableMetadata接口下，该接口可以多线程/Spark并行执行，该优化可以在未开启Metadata表时提升清理、压缩性能。
Kafka Commit Callbacks；0.7.0添加了HoodieWriteCommitKafkaCallback接口，当每次进行commit后可以向Kafka中发送事件，以此来触发派生/ETL数据管道，类似Apache Airflow中的Sensors
Insert Overwrite/Insert Overwrite Table；0.7.0版本中新增了这两种操作类型，主要用于批处理ETL作业，该作业通常会在每次运行时覆盖整个表/分区。考虑到这些操作可以批量替换目标表，因此这些操作比upsert更合适，请查看[示例](/docs/ quick-start-guide.html＃insert-overwrite-table)。
删除分区支持：对于使用WriteClient/RDD级别API的用户，Hudi提供了一个新的API来删除整个分区，而不是采用记录级别删除方式。
新增DefaultHoodieRecordPayload解决乱序问题；当前默认的OverwriteWithLatestAvroPayload将覆盖存储中已有的值，即使使用较旧值进行upsert。0.7.0版本添加了一个新的DefaultHoodieRecordPayload和一个有效负载配置hoodie.payload.ordering.field来指定一个字段，可以将传入的upsert记录与已存储的记录进行比较，以决定是否覆盖。推荐用户使用这种更新、更灵活的Payload模型。
Hive同步；支持使用SlashEncodedHourPartitionValueExtractor同步小时分区至Hive中。
支持IBM云对象存储、Open Java 9版本。

5. 查询端优化

MOR增量查询（Spark Datasource），0.7.0版本支持使用Spark datasource增量查询MOR表，在后续版本中会继续加强和重构该特性。
Metadata表支持File Listings，用户还可以将元数据表用于以下查询端，对于Hive，设置hoodie.metadata.enable = true会话

属性，对于使用SparkSQL查询注册的Hive表，请使用参数--conf spark.hadoop.hoodie.metadata.enable = true来允许从元数据中获取分区的文件列表，而非使用File Listing。

贡献者

prashantwason ，Trevor-zhang，satishkotha，nbalajee，wangxianghu，hddong，nsivabalan，xushiyan，cdmikechen，garyli1019，kwondw，sreeram26，chuangehh，zhedoubushishi，modi95，linshan-ma，Karl-WangSK，bvaradar，liujinhui1994，shenh062326，xushiyan，pratyakshsharma，afilipchik，Kaiux，lw309637554，vinothchandar，dugenkui03，leesf，yanghua，rmpifer，hj2016，guykhazma，bhasudha，hotienvu，n3nash，v3nkatesh，pengzhiwei2018，yui2010，jshmchenxi，danny0405，yui2010，lichang-bd，nbalajee，umehrot2

Apache Hudi 0.7.0版本重磅发布的更多相关文章

Apache Hudi 0.5.1版本重磅发布
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2 ...
Apache Hudi 0.8.0版本重磅发布
1. 重点特性 1.1 Flink集成自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引 ...
Apache Hudi 0.6.0版本重磅发布
1. 下载信息源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南如果您从0.5.3以前的版本迁移至0.6 ...
Flutter 1.17版本重磅发布
Flutter 1.17 是2020年的第一个稳定版本,此版本包括iOS平台Metal支持(性能更快),新的Material组件,新的Network跟踪工具等等! 对所有人来说,今年是充满挑战的一年. ...
重磅！Vertica集成Apache Hudi指南
1. 摘要本文演示了使用外部表集成 Vertica 和 Apache Hudi. 在演示中我们使用 Spark 上的 Apache Hudi 将数据摄取到 S3 中,并使用 Vertica 外部表访 ...
官宣！ASF官方正式宣布Apache Hudi成为顶级项目
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apac ...
Apache Hudi C位！云计算一哥AWS EMR 2020年度回顾
1. 概述成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规 ...
真香！PySpark整合Apache Hudi实战
1. 准备 Hudi支持Spark-2.x版本,你可以点击如下链接安装Spark,并使用pyspark启动 # pyspark export PYSPARK_PYTHON=$(which python ...
Apache Hudi异步Compaction方式汇总
本篇文章对执行异步Compaction的不同部署模型一探究竟. 1. Compaction 对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件 ...

随机推荐

leetcode Add to List 31. Next Permutation找到数组在它的全排列中的下一个
直接上代码 public class Solution { /* 做法是倒着遍历数组,目标是找到一个数比它前边的数大(即这个数后边的是降序排列),如果找到了那么这个数前边的那个数就是需要改变的最高位, ...
看了CopyOnWriteArrayList后自己实现了一个CopyOnWriteHashMap
引言面试官: 小伙子你有点眼熟啊,是不是去年来这面试过啊. 二胖: 啊,没有啊我这是第一次来这. 面试官: 行,那我们开始今天的面试吧,刚开始我们先来点简单的吧,java里面的容器你知道哪些啊,跟我 ...
5款极简极美WordPress主题，亲测可用附送源码
2020年深冬,新闻上报道是.从1950年以来最寒冷的冬天. 一个周六的下午,我找遍了全网的简约博客主题,搭建了三年来的第7个独立博客, 多么难得的周末啊,我却在家花了一整天的时间.整理出直接套用5️ ...
transmission protocol
传输层主要定义了主机应用程序间端到端的连通性,它一般包含四项基本功能 . 将应用层发往网络层的数据分段或将网络层发往应用层的数据段合并建立端到端的链接,主要是建立逻辑连接以传送数据流将数据段从一台 ...
js如何替换字符串中匹配到多处中某一指定节点？
抛出一个问题,如图,搜索关键字,匹配到四处,那我鼠标放在第二处,我想把它变个颜色,该怎么实现呢?回到文章的标题,js如何替换字符串中匹配到多处中某一指定节点? 字符串的替换,我们首先想到的一个属性是r ...
服务器报错"您的主机中的软件中止了一个已建立的连接"
网上很多的说法都模棱两可,只是说和远程连接有关,这个说的太泛泛了. 我现在遇到的问题是java web出现的, 执行表单提交的时候出现该错误,原因是ajax和表单同时提交导致的, 相信很多朋友用了aj ...
【C++】《C++ Primer 》第九章
第九章顺序容器一.顺序容器概述顺序容器(sequential container):为程序员提供了控制元素存储和访问顺序的能力.这种顺序不依赖于元素的值,而是与元素加入容器时的位置相对应. 不同 ...
编译安装 nginx -1.14.2
编译安装 nginx -1.14.2 1 ) 下载nginx-1.14.2 源码包: wget http://nginx.org/download/nginx-1.14.2.tar.gz 2 ) 编译 ...
【Jboss】一台服务器上如何部署多个jboss
一台服务器上如何部署多个jboss呢?直接把整个部署环境copy一份到相应的目录下? 这样只是前提,但是启动复制后的jboss就会发现,有很多端口被占用 3873,8080,8009,8443,808 ...
Databricks 第7篇：管理Secret
有时,访问数据要求您通过JDBC对外部数据源进行身份验证,可以使用Azure Databricks Secret来存储凭据,并在notebook和job中引用它们,而不是直接在notebook中输入凭 ...

Apache Hudi 0.7.0版本重磅发布