1. 下载连接 源代码下载:Apache Hudi 0.5.3 Source Release (asc, sha512) 0.5.3版本相关jar包地址:https://repository.apache.org/#nexus-search;quick~hudi 2. 迁移指南 这是一个bugfix版本,从0.5.2升级时不需要任何特殊的迁移步骤.如果要从早期版本"X"升级,请阅读"X"和0.5.3之间的每个后续版本的迁移指南. 0.5.3是Hudi毕业后的第一个版…
历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下 版本升级 将Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10.1 将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka artifact从0.8_2.11升级到0.10_2.11/2.12间接升级 重要:Hud…
1. 下载信息 源码:Apache Hudi 0.6.0 Source Release (asc, sha512) 二进制Jar包:nexus 2. 迁移指南 如果您从0.5.3以前的版本迁移至0.6.0,请仔细核对每个版本的迁移指南: 0.6.0版本从基于list的rollback策略变更为了基于marker文件的rollback策略,为进行平稳迁移,会在hoodie.properties文件中配置一个新属性hoodie.table.version:无论何时使用Hudi表新版本,如1(从0.6…
1. 重点特性 1.1 Flink集成 自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成.包括重新设计性能更好.扩展性更好.基于Flink状态索引的写入Pipeline:支持Flink写入MOR表:Flink批量读取COW和MOR表:流式读取MOR表:同时支持了Hudi作为Source和Sink的Flink SQL Connector,在Hudi 0.8.0版本发布后,用户可以使用Flink1.11+体验上述所有新特性. 想了解更多Flink…
在 Apache Pulsar 2.6.0 版本发布后的 2 个月,2020 年 8 月 21 日,Apache Pulsar 2.6.1 版本正式发布! Apache Pulsar 2.6.1 修复了 2.6.0 版本中的诸多问题,改进了一些功能,新增了对 OAuth2 的支持,覆盖 Broker.Pulsar SQL.Pulsar Functions.Go Function.Java Client 和 C++ Client,进一步丰富了 Pulsar 作为云原生流数据平台的功能. 在 Pul…
今天是假期最后一天,明天起大家也要陆续复工了.golang1.16也在今天正式发布了. 原定计划是2月1号年前发布的,不过迟到也是golang的老传统了,正好也趁着最后的假期快速预览一下golang1.16的新特性吧. 本文索引 语言內建的资源嵌入支持 支持arm64 go modules的新特性 GO111MODULE现在默认为on go build不在更改mod相关文件 go install的变化 新的GOVCS环境变量 相对路径导入不在被允许 标准库的变化 testing ioutils包…
重点特性 1. Clustering 0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增加文件大小,有了Clustering特性,便可更快速地摄取数据,然后聚簇为更大的文件,实验数据表明查询性能可以提升34倍,文件数可以减少1020倍:另外Clustering对于查询侧优化也很明显,在查询时通常会基于字段进行Clustering,通过完全跳过一些文件来极大提升查询性能,这与云数仓Sno…
国庆假期,Python 社区发布了 3.9 版本的第一个 stable release. 相比于 3.8,Python 3.9 新特性众多,但不少特性与大多数 Python"使用者"(而非 CPython 的贡献者或使用 C 接口编写扩展的开发者)关系不大. 本文将站在 Python "使用者"的角度,简单介绍新特性中很可能会与各位的日常开发产生关系的几个. 字典"并集"运算符 "并集"运算符顾名思义就是给两个字典取并,并产生…
1. 引入 Apache Hudi是一个开源的增量数据处理框架,提供了行级insert.update.upsert.delete的细粒度处理能力(Upsert表示如果数据集中存在记录就更新:否则插入). Hudi处理数据插入和更新,不会创建太多的小文件(小文件会导致查询端性能降低),Apache Hudi自动管理及合并小文件,让其保持指定大小,这避免了自建解决方案来监控和重写小文件为大文件. Hudi数据集在如下场景下非常适用 使用GDPR和CCPA法规来删除用户个人信息或修改个人信息用途. 处…
是的,最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi 0.5.1版本作为其云上的数据湖解决方案对外提供服务 Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的流原语. 一般来说,我们会将大量数据存储到 HDFS,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景.而且在数据仓库如 hive 中,对于 update 的支持非常有限,计算昂贵.另一方面,若是有仅对某段时间内新增数据进行分析的场景,则 hive.presto.…
1. 可用性 在Hudi最新master分支,由Hudi活跃贡献者Raymond Xu贡献了DataDog监控Hudi应用指标,该功能将在0.6.0 版本发布,也感谢Raymond的投稿. 2. 简介 Datadog是一个流行的监控服务.在即将发布的Apache Hudi 0.6.0版本中,除已有的报告者类型(Graphite和JMX)之外,我们将引入通过Datadog HTTP API报告Hudi指标的功能. 3. 配置 类似于其他支持的报告者,启用Datadog报告者需要以下两个属性. ho…
马萨诸塞州韦克菲尔德(Wakefield,MA)- 2020年6月 - Apache软件基金会(ASF).350多个开源项目和全职开发人员.管理人员和孵化器宣布:Apache Hudi正式成为Apache顶级项目(TLP).在投票表决Hudi毕业时,Hudi总共获得了19票binding(其中包括ASF联合创始人Jim Jagielski的一票),21票non-binding. Apache Hudi(Hadoop Upserts Delete and Incremental)数据湖技术可在Ap…
与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同. 在这篇博客中,我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版本中构建新的多模式索引,这是用于 Lakehouse 架构的首创高性能索引子系统,以优化查询和写入事务,尤其是对于大宽表而言. 1. 为什么在 Hudi 中使用多模态索引 索引被广泛应用于数据库系统中,例如关系数据库和数据仓库,以降低 I/O 成本并提高查询效率.类似于书末的索引页如何帮助您快速定位…
本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse. 我们很高兴地宣布,用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse. 在深入了解细节之前,让我们先澄清一下本博客中使用的一些术语. 什么是 Apache Hudi? Apache Hudi 为Lakehouse带来了 ACID 事务.记录级更新/删除和变更流. Apache Hudi 是一个开源数据管理框架,用于简化增量数据处理和数据管道开发.该框架更有效地管理数据生命周…
新版本一般意味着更强的功能特性,比如 GitHub Desktop v3.0.虽然未发布新版本,但本周收录的 7 个开源项目颇有"新版"味.比如,破解(恢复)密码能力 Max 的 Hashcat 支持 300+ 攻击模式,再如开源不到 2 周获得 7k star 的跨平台文件管理 spacedrive 替你造一朵分布式云.还有极大降低 Web 开发门槛的 PyScript,见名就知是个狠角色,还有编译速度为 cargo 5 倍的 fleet. 以下内容摘录自微博@HelloGitHub…
C# 9.0 新特性预览 - 类型推导的 new 前言 随着 .NET 5 发布日期的日益临近,其对应的 C# 新版本已确定为 C# 9.0,其中新增加的特性(或语法糖)也已基本锁定,本系列文章将向大家展示它们. 目录 [C# 9.0 新特性预览 - 类型推导的 new][C# 9.0 新特性预览 - Lambda 中的弃元][C# 9.0 新特性预览 - 更简便的空参数检查][C# 9.0 新特性预览 - Record 类型][C# 9.0 新特性预览 - 模式匹配的改善][C# 9.0 新特…
C# 9.0 新特性预览 - 空参数校验 前言 随着 .NET 5 发布日期的日益临近,其对应的 C# 新版本已确定为 C# 9.0,其中新增加的特性(或语法糖)也已基本锁定,本系列文章将向大家展示它们. 目录 [C# 9.0 新特性预览 - 类型推导的 new][C# 9.0 新特性预览 - 空参数校验][C# 9.0 新特性预览 - Lambda 中的弃元][C# 9.0 新特性预览 - Record 类型][C# 9.0 新特性预览 - 模式匹配的改善][C# 9.0 新特性预览 - 其他…
1. 摘要 随着Apache Hudi变得越来越流行,一个挑战就是用户如何将存量的历史表迁移到Apache Hudi,Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力.为利用Hudi的upsert和增量拉取能力,用户需要重写整个数据集让其成为Hudi表.此RFC提供一个无需重写整张表的高效迁移机制. 2. 背景 为了更好的了解此RFC,读者需要了解一些Hudi基础知识 2.1 记录级别元数据 上图展示了Hudi中每条记录的组织结构,每条记录有5个Hudi元数…
C# 9.0 新特性预览 - 顶级语句 前言 随着 .NET 5 发布日期的日益临近,其对应的 C# 新版本已确定为 C# 9.0,其中新增加的特性(或语法糖)也已基本锁定,本系列文章将向大家展示它们. 目录 [C# 9.0 新特性预览 - 类型推导的 new][C# 9.0 新特性预览 - 空参数校验][C# 9.0 新特性预览 - 顶级语句][C# 9.0 新特性预览 - Record 类型][C# 9.0 新特性预览 - 模式匹配的改善][C# 9.0 新特性预览 - 源代码生成器][C#…
C# 9.0 新特性预览 - init-only 属性 前言 随着 .NET 5 发布日期的日益临近,其对应的 C# 新版本已确定为 C# 9.0,其中新增加的特性(或语法糖)也已基本锁定,本系列文章将向大家展示它们. 目录 [C# 9.0 新特性预览 - 类型推导的 new] [C# 9.0 新特性预览 - 空参数校验] [C# 9.0 新特性预览 - 顶级语句] [C# 9.0 新特性预览 - init-only 属性] [C# 9.0 新特性预览 - Record 类型] [C# 9.0…
1. 概述 成千上万的客户在Amazon EMR上使用Apache Spark,Apache Hive,Apache HBase,Apache Flink,Apache Hudi和Presto运行大规模数据分析应用程序.Amazon EMR自动管理这些框架的配置和扩缩容,并通过优化的运行时提供更高性能,并支持各种Amazon Elastic Compute Cloud(Amazon EC2)实例类型和Amazon Elastic Kubernetes Service(Amazon EKS)集群.…
自托管(Self-Hosted) 是很多开源项目主打的亮点:数据在手,安全我有.本周 GitHub 热点榜单上有多款自托管的项目,当中自然不能少了之前 HG 小伙伴 @makes world simple 说的"笔记应用千千万,每一款都赚的盆满钵满"笔记应用项目--notesnook.此外,还有日常生活中的数据也很重要,相册备份.家庭应用都安排上了. 本周特推的两个项目都是近期的热点,一个是流处理,另外一个是苹果生态延伸--用手表打游戏. 以下内容摘录自微博@HelloGitHub 的…
不知不觉,“.NET平台开源项目速览“系列文章已经15篇了,每一篇都非常受欢迎,可能技术水平不高,但足够入门了.虽然工作很忙,但还是会抽空把自己知道的,已经平时遇到的好的开源项目分享出来.今天就给大家介绍.NET平台下的文档型数据库RavenDB,虽然我以前也在小项目用过其他文档型数据库,但问题很多,小项目还可以,大项目就歇菜了.这个数据库我关注了很久,最近一直在看它的文档,所以把知道的先总结下来. .NET开源目录:[目录]本博客其他.NET开源项目文章目录 本文原文地址:http://www…
Apache Spark2.0正式发布 7月26日起Databricks开始提供Apache Spark 2.0的下载,这个版本是基于社区在过去两年的经验总结而成,不但加入了用户喜爱的功能,也修复了之前的痛点. 本文总结了Spark 2.0的三大主题:更简单.更快速.更智能,另有Spark 2.0内容的文章汇总介绍了更多细节. 两个月前,Databricks发布了Apache Spark 2.0的技术预览版,如下表所见,目前我们有10%的集群都在使用这个版本,根据客户使用新版的经验及反馈意见,新…
记得5年前开始拼命翻读X组件的源码,特别是XCode,但对Newlife.Core 的东西了解很少,最多只是会用用,而且用到的只是九牛一毛.里面好用的东西太多了. 最近一年时间,零零散散又学了很多,也了解了很多,不会写那总要学会用吧,今天就给大家介绍里面非常好用的自定义配置文件用法. X组件的介绍我就不多说了,看这里多年前系列文章: 说明:文章是多年前的,但这些年变动也很大,最好看看源码,基本用法都还差不多. .NET开源文章目录:本博客.NET开源项目文章目录 本文原文地址:.NET平台开源项…
将数据存储在Amazon S3中可带来很多好处,包括规模.可靠性.成本效率等方面.最重要的是,你可以利用Amazon EMR中的Apache Spark,Hive和Presto之类的开源工具来处理和分析数据. 尽管这些工具功能强大,但是在处理需要进行增量数据处理以及记录级别插入,更新和删除场景时,仍然非常具有挑战. 与客户交谈时,我们发现有些场景需要处理对单条记录的增量更新,例如: 遵守数据隐私法规,在该法规中,用户选择忘记或更改应用程序对数据使用方式的协议. 使用流数据,当你必须要处理特定的数…
作者:HelloGitHub-小鱼干 摘要:找对路子,事半功倍,正如本周 GitHub Trending #刷 LeetCode# 主题想表达的那般,正确的学习姿势方能让人走得更远,走进大厂…
一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等. 什么是数据湖?数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据.你可以存储原始数据,而不需要先转化为结构化的数据,基于数据湖之上可以运行多种类型的分析,如dashboard.大数据处理的可视化.实时分析.机器学习等. 接着看看对于构建PB…
Apache Hudi在阿里巴巴集团.EMIS Health,LinkNovate,Tathastu.AI,腾讯,Uber内使用,并且由Amazon AWS EMR和Google云平台支持,最近Amazon Athena支持了在Amazon S3上查询Apache Hudi数据集的能力,本博客将测试Athena查询S3上Hudi格式数据集. 1. 准备-Spark环境,S3 Bucket 需要使用Spark写入Hudi数据,登陆Amazon EMR并启动spark-shell: $ export…
一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章. 1. 概述 Apache Hudi 是一个快速迭代的数据湖存储系统,可以帮助企业构建和管理PB级数据湖,Hudi通过引入upserts.deletes和增量查询等原语将流式能力带入了批处理.这些特性使得统一服务层可提供更快.更新鲜的数据.Hudi表可存储在Hadoop兼容的分布式文件系…