马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF)、350多个开源项目和全职开发人员、管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP)。在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding。

Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Apache Hadoop兼容的云存储和分布式文件系统之上进行流处理。该项目最初于2016年在Uber开发(代号和发音为"Hoodie"),于2017年开源,并于2019年1月提交给Apache孵化器。

Apache Hudi项目VP Vinoth Chandar说:“在孵化器中学习和发展Apache之道是一种有益的体验,作为一个社区,我们对我们共同推动该项目走了多远依然感到谦卑,与此同时,对即将到来的挑战感到兴奋。”

Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。 核心功能包括:

  • 可插拔式的索引支持快速Upsert / Delete。
  • 事务提交/回滚数据。
  • 支持捕获Hudi表的变更进行流式处理。
  • 支持Apache Hive,Apache Spark,Apache Impala和Presto查询引擎。
  • 内置数据提取工具,支持Apache Kafka,Apache Sqoop和其他常见数据源。
  • 通过管理文件大小,存储布局来优化查询性能。
  • 基于行存快速提取模式,并支持异步压缩成列存格式。
  • 用于审计跟踪的时间轴元数据。

阿里巴巴集团、亚马逊AWS、EMIS Health、Linknovate、Tathastu.AI、腾讯和Uber等组织。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html提供了使用Hudi的部分列表。

我们很高兴看到Apache Hudi毕业成为Apache顶级项目。Apache Hudi在Amazon EMR版本5.28和更高版本中受支持,并使拥有Amazon S3数据湖中数据的客户能够执行记录级的插入,更新和删除操作,以执行隐私法规,更改数据捕获(CDC)和简化的数据管道开发 ” AWS总经理Rahul Pathak说。 “我们期待与我们的客户和Apache Hudi社区合作,以帮助推进该项目。”

Apache Hudi项目管理委员会成员Nishith Agarwal说:“在Uber,Hudi近实时地管理地球上最大的交易数据湖之一,为全球用户提供有意义的体验,累计超过150 PB的数据和每天超过5,000亿条记录被提取,Uber的使用范围从关键业务工作流程到分析和机器学习。”

“使用Apache Hudi,用户可以轻松处理重读或重写的场景,并且Hudi使用Apache Parquet和Apache Avro管理存储在HDFS/COS/CHDFS上的基础数据。”腾讯云实时计算服务技术负责人Felix Zheng说道。

“随着云的基础设施越来越完善,用户的数据分析和计算方案逐步开始基于云上对象存储和计算资源构建数据湖平台。Hudi是一个很好的增量存储引擎,用开放的方式帮助用户管理好数据湖的数据,加速用户的计算和分析。”阿里云Data Lake Analytics - Lake Formation技术负责人李伟表示。

“Apache Hudi是Hopsworks Feature Store的关键模块,它提供了版本控制、增量和原子更新以及时间旅行查询等功能” Logical Clocks的CEO /联合创始人Jim Dowling说。“Hudi毕业成为Apache顶级项目,也是开源数据湖从早期的数据沼泽化身到现代支持ACID且可用于企业的数据平台。”

Uber工程平台高级总监Jennifer Anderson表示:“Hudi毕业成为Apache顶级项目是Hudi社区众多贡献者共同努力的结果。Hudi对于Uber大数据基础架构的性能和可伸缩性至关重要。我们很高兴看到它获得牵引力并实现了这一重要里程碑。”

Vinoth Chandar补充道:“到目前为止,Hudi已经开始在业界中就数据仓库和数据湖之间的巨大差距进行有意义的讨论。在Apache社区的帮助下我们连接起了其中一部分,但我们仅仅是从技术路线图着手。我们欢迎每位开发者做出更多贡献和合作以实现这一目标!”

可以访问(https://github.com/apache/hudi)[https://github.com/apache/hudi],给出你的star & fork.

在2020年6月7日至12日举行的Virtual Berlin Buzzwords,MeetUps和其他活动中了解Apache Hudi。

可用性和监督

Apache Hudi是根据Apache License v2.0发布的,并且由该项目的积极参与者自选团队进行监督。项目管理委员会(PMC)指导项目的日常运营,包括社区开发和产品发布。 有关下载,文档以及参与Apache Hudi的方式,请访问http://hudi.apache.org/和https://twitter.com/apachehudi

关于Apache孵化器

Apache孵化器是希望成为Apache Software Foundation工作的一部分的项目和代码库的主要入口。外部组织和现有外部项目的所有代码捐赠均通过孵化器进入ASF,以:1)确保所有捐赠均符合ASF法律标准; 2)建立符合我们指导原则的新社区。 所有新接受的项目都需要进行孵化,直到进一步的审查表明基础架构,通信和决策过程已经以与其他成功的ASF项目一致的方式稳定下来。 虽然孵化状态不一定反映代码的完整性或稳定性,但确实表明该项目尚未得到ASF的完全认可。有关更多信息,请访问http://incubator.apache.org/

关于Apache软件基金会(ASF)

这家全志愿者基金会成立于1999年,负责监督350多个领先的开源项目,其中包括Apache HTTP Server(世界上最受欢迎的Web服务器软件)。通过ASF称为“ Apache之道”的精英流程,六大洲的813名个人会员和7800个提交者成功地合作开发了免费的企业级软件,使全球数百万用户受益:数千种软件解决方案在Apache下分发执照;社区积极参与ASF邮件列表,指导计划以及ApacheCon(基金会的官方用户会议,培训和博览会)。ASF是一家美国501(c)(3)慈善组织,由个人捐款和企业赞助商资助,其中包括Aetna,阿里云计算,亚马逊AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,腾讯,Union Investment,Verizon Media和Workday。有关更多信息,请访问http://apache.org/和https://twitter.com/TheASF

Apache软件基金会。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache软件基金会在美国和/或其他国家的注册商标或商标。所有其他品牌和商标均为其各自所有者的财产。

官宣!ASF官方正式宣布Apache Hudi成为顶级项目的更多相关文章

  1. 官宣!DolphinScheduler 毕业成为 Apache 软件基金会顶级项目

    全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021年4月9日在官方渠道宣布Apache DolphinScheduler 毕业成为Apache顶级项目.这 ...

  2. Apache 软件基金会顶级项目 Pulsar 达成新里程碑:全球贡献者超 300 位!

    各位 Pulsar 社区小伙伴们: 今天我们高兴地宣布Pulsar 达成新里程碑,全球贡献者超 300 位! 距离 Pulsar 实现 200 位贡献者里程碑,仅仅间隔 8 个月! 作为 Apache ...

  3. 对于学习apache软件基金会顶级项目源码的一点思路(转)

    ASF的开源项目,为软件行业贡献了太多好的产品和软件思维.学习ASF的项目源码能很大的提升自身的能力.程序运行在服务器上的流程:执行启动脚本(start.sh) -> 指向程序的主方法 -> ...

  4. Apache Hudi:云数据湖解决方案

    1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录. 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟. Apache ...

  5. Uber基于Apache Hudi构建PB级数据湖实践

    1. 引言 从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全.无缝的运输和交付体验需要可靠.高性能的大规模数据存储和分析.2016年,Uber开发了增量处理框架Apache Hudi ...

  6. Apache 顶级项目 Apache Pulsar 成长回顾

    关于 Apache Pulsar Apache Pulsar 是 Apache 软件基金会顶级项目,是下一代云原生分布式消息流平台,集消息.存储.轻量化函数式计算为一体,采用计算与存储分离架构设计,支 ...

  7. 官宣!Amazon EMR正式支持Apache Hudi

    ​Apache Hudi是一个开源的数据管理框架,其通过提供记录级别的insert, update, upsert和delete能力来简化增量数据处理和数据管道开发.Upsert指的是将记录插入到现有 ...

  8. 官宣!AWS Athena正式可查询Apache Hudi数据集

    1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入) ...

  9. 官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行!

    官宣 | Apache Flink 1.12.0 正式发布,流批一体真正统一运行! 原创 Apache 博客 [Flink 中文社区](javascript:void(0) 翻译 | 付典 Revie ...

随机推荐

  1. 一个学习 Koa 源码的例子

    作者: MarkLin 学习目标: 原生 node 封装 中间件 路由 Koa 原理 一个 nodejs 的入门级 http 服务代码如下, // index.js const http = requ ...

  2. @vue/cli 4.0.5 学习记录

    1. Vue CLI (@vue/cli) 是一个全局安装的 npm 包,提供了终端里的 vue 命令.Vue CLI 插件的名字以 @vue/cli-plugin- (内建插件) 或 vue-cli ...

  3. ubuntu下安装perl GD模块

    依次执行: sudo apt-get install libgd2-xpm-dev sudo perl -MCPAN -e shell install Bundle::CPAN install GD: ...

  4. JS 如何获取自定义属性

    <script>var testEle = document.getElementById("test"); testEle.setAttribute("de ...

  5. 201771010128王玉兰《面向对象程序设计(Java)》第八周学习总结

    第一部分:理论知识部分总结 (1)接口:接口不是类,而是对类胡一组需求描述,由常量肯一组抽象方法组成. a:接口中不包括变量和有具体实现的方法 b:只要类实现了接口,则该类要遵从接口描述的统 一格式进 ...

  6. CF820D Mister B and PR Shifts

    题目链接:http://codeforces.com/problemset/problem/820/D 题目大意: 给出一个\(n\)元素数组\(p[]\),定义数组\(p[]\)的误差值为\(\su ...

  7. Kd Tree算法详解

    kd树(k-dimensional树的简称),是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的近邻查找(Nearest Neighbor)和近似最近邻查找(Approximate Nea ...

  8. JavaScript实现队列结构

    参考资料 一.什么是队列结构? 1.1.简介 队列(Queue),类似于栈结构,但又和栈结构不同 是一种运算受限的线性表,受限之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rea ...

  9. tp5增删改查基本操作

    //插入数据 $res = Db::execute('insert into phptab(info) values("小张")'); dump($res); //修改数据 $re ...

  10. MySQL高可用篇之MHA集群

    1 准备工作 1.1 修改主机名 vim /etc/hosts # 添加对应主机 192.168.28.128 mha1 192.168.28.131 mha2 192.168.28.132 mha3 ...