在大数据处理中，实时数据分析是一个重要的需求。随着数据量的不断增长，对于实时分析的挑战也在不断加大，传统的批处理方式已经不能满足实时数据处理的需求，需要一种更加高效的技术来解决这个问题。Apache Hudi（Hadoop Upserts Deletes and Incremental Processing）就是这样一种技术，提供了高效的实时数据仓库管理功能。

本文将介绍袋鼠云基于 Hudi 构建数据湖的整体方案架构及其在实时数据仓库处理方面的特点，并且为大家展示一个使用 Apache Hudi 的简单示例，便于新手上路。

Apache Hudi 介绍

Apache Hudi 是一个开源的数据湖存储系统，可以在 Hadoop 生态系统中提供实时数据仓库处理功能。Hudi 最早由 Uber 开发，后来成为 Apache 顶级项目。

Hudi 主要特性

· 支持快速插入和更新操作，以便在数据仓库中实时处理数据；

· 提供增量查询功能，可有效提高数据分析效率；

· 支持时间点查询，以便查看数据在某一时刻的状态；

· 与 Apache Spark、Hive 等大数据分析工具兼容。

Hudi 架构

Apache Hudi 的架构包括以下几个主要组件：

· Hudi 数据存储：Hudi 数据存储是 Hudi 的核心组件，负责存储数据，数据存储有两种类型：Copy-On-Write（COW）和 Merge-On-Read（MOR）；

· Copy-On-Write：COW 存储类型会在对数据进行更新时，创建一个新的数据文件副本，将更新的数据写入副本中，之后，新的数据文件副本会替换原始数据文件；

· Merge-On-Read：MOR 存储类型会在查询时，将更新的数据与原始数据进行合并，这种方式可以减少数据存储的写入延迟，但会增加查询的计算量；

· Hudi 索引：Hudi 索引用于维护数据记录的位置信息，索引有两种类型：内置索引（如 Bloom 过滤器）和外部索引（如 HBase 索引）；

· Hudi 查询引擎：Hudi 查询引擎负责处理查询请求，Hudi 支持多种查询引擎，如 Spark SQL、Hive、Presto 等。

Hudi 的使用场景

Apache Hudi 可以帮助企业和组织实现实时数据处理和分析。实时数据处理需要快速地处理和查询数据，同时还需要保证数据的一致性和可靠性。

Apache Hudi 的增量数据处理、ACID 事务性保证、写时合并等技术特性可以帮助企业更好地实现实时数据处理和分析，基于 Hudi 的特性可以在一定程度上在实时数仓的构建过程中承担上下游数据链路的对接（类似 Kafka 的角色）。既能实现增量的数据处理，也能为批流一体的处理提供存储基础。

Hudi 的优势和劣势

● 优势

· 高效处理大规模数据集；

· 支持实时数据更新和查询；

· 实现了增量写入机制，提高了数据访问效率；

· Hudi 可以与流处理管道集成；

· Hudi 提供了时间旅行功能，允许回溯数据的历史版本。

● 劣势

· 在读写数据时需要付出额外的代价；

· 操作比较复杂，需要使用专业的编程语言和工具。

Hudi 在袋鼠云数据湖平台上的实践

Hudi 在袋鼠云数据湖的技术架构

Hudi 在袋鼠云的数据湖平台上主要对数据湖管理提供助力：

· 元数据的接入，让用户可以快速的对表进行管理；

· 数据快速接入，包括对符合条件的原有表数据进行转换，快速搭建数据湖能力；

· 湖表的管理，监控小文件定期进行合并，提升表的查询性能，内在丰富的表操作功能，包括 time travel ,孤儿文件清理，过期快照清理等；

· 索引构建，提供多种索引包括 bloom filter,zorder 等，提升计算引擎的查询性能。

Hudi 使用示例

在介绍了 Hudi 的基本信息和袋鼠云数据湖平台的结构之后，我们来看一个使用示例，替换 Flink 在内存中的 join 过程。

在 Flink 中对多流 join 往往是比较头疼的场景，需要考虑 state ttl 时间设置，设置太小数据经常关联不上，设置太大内存又需要很高才能保留，我们通过 Hudi 的方式来换个思路实现。

● 构建 catalog

public String createCatalog(){

    String createCatalog = "CREATE CATALOG hudi_catalog WITH (\n" +

            "    'type' = 'hudi',\n" +

            "    'mode' = 'hms',\n" +

            "    'default-database' = 'default',\n" +

            "    'hive.conf.dir' = '/hive_conf_dir',\n" +

            "    'table.external' = 'true'\n" +

            ")";

    return createCatalog;

}

● 创建 hudi 表

public String createHudiTable(){

    String createTable = "CREATE TABLE if not exists hudi_catalog.flink_db.test_hudi_flink_join_2 (\n" +

            "  id int ,\n" +

            "  name VARCHAR(10),\n" +

            "  age int ,\n" +

            "  address VARCHAR(10),\n" +

            "  dt VARCHAR(10),\n" +

            "  primary key(id) not enforced\n" +

            ")\n" +

            "PARTITIONED BY (dt)\n" +

            "WITH (\n" +

            "  'connector' = 'hudi',\n" +

            "  'table.type' = 'MERGE_ON_READ',\n" +

            "  'changelog.enabled' = 'true',\n" +

            "  'index.type' = 'BUCKET',\n" +

            "  'hoodie.bucket.index.num.buckets' = '2',\n" +

            String.format("  '%s' = '%s',\n", FlinkOptions.PRECOMBINE_FIELD.key(), FlinkOptions.NO_PRE_COMBINE) +

            "  'write.payload.class' = '" + PartialUpdateAvroPayload.class.getName() + "'\n" +

    ");";

    return createTable;

}

● 更新 hudi 表的 flink_db.test_hudi_flink_join_2 的 id, name, age, dt 列

01 从 kafka 中读取 topic1

public String createKafkaTable1(){

    String kafkaSource1 = "CREATE TABLE source1\n" +

            "(\n" +

            "    id        INT,\n" +

            "    name      STRING,\n" +

            "    age        INT,\n" +

            "    dt        String,\n" +

            "    PROCTIME AS PROCTIME()\n" +

            ") WITH (\n" +

            "      'connector' = 'kafka'\n" +

            "      ,'topic' = 'join_topic1'\n" +

            "      ,'properties.bootstrap.servers' = 'localhost:9092'\n" +

            "      ,'scan.startup.mode' = 'earliest-offset'\n" +

            "      ,'format' = 'json'\n" +

            "      ,'json.timestamp-format.standard' = 'SQL'\n" +

            "      )";

    return kafkaSource1;

}

02 从 kafka 中读取 topic2

public String createKafkaTable2(){

    String kafkaSource2 = "CREATE TABLE source2\n" +

            "(\n" +

            "    id        INT,\n" +

            "    name      STRING,\n" +

            "    address        string,\n" +

            "    dt        String,\n" +

            "    PROCTIME AS PROCTIME()\n" +

            ") WITH (\n" +

            "      'connector' = 'kafka'\n" +

            "      ,'topic' = 'join_topic2'\n" +

            "      ,'properties.bootstrap.servers' = 'localhost:9092'\n" +

            "      ,'scan.startup.mode' = 'earliest-offset'\n" +

            "      ,'format' = 'json'\n" +

            "      ,'json.timestamp-format.standard' = 'SQL'\n" +

            "      )";

    return kafkaSource2;

}

● 执行插入逻辑1

String insertSQL = "insert into hudi_catalog.flink_db.test_hudi_flink_join_2(id,name,age,dt) " +

        "select id, name,age,dt from source1";

● 通过 spark 查询数据

20230323090605515 20230323090605515_1_186 45 1 c990a618-896c-4627-8243-baace65c7ad6-0_0-21-26_20230331101342388.parquet 45 xc 45 NULL 1

20230323090605515 20230323090605515_1_179 30 1 c990a618-896c-4627-8243-baace65c7ad6-0_0-21-26_20230331101342388.parquet 30 xc 30 NULL 1

● 执行插入逻辑2

String insertSQL = "insert into hudi_catalog.flink_db.test_hudi_flink_join_2(id,name,address,dt) " +

        "select id, name, address,dt from source2";

● 运行成功

运行成功后在 spark 中查询对应的表数据：

20230323090605515 20230323090605515_1_186 45 1 c990a618-896c-4627-8243-baace65c7ad6-0_0-21-26_20230331101342388.parquet 45 xc 45 xc:address45 1

20230323090605515 20230323090605515_1_179 30 1 c990a618-896c-4627-8243-baace65c7ad6-0_0-21-26_20230331101342388.parquet 30 xc 30 xc:address30 1

可以发现在第二次数据运行之后，表数据的对应字段 address 已经更新，达到了类似在 Flink 中直接执行 join 的效果。

`insert into hudi_catalog.flink_db.test_hudi_flink_join_2

select a.id, a.name, a.age,b.address a.dt from source1 a left join source2 b on a.id = b.id `

《数栈产品白皮书》：https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=szbky

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」，交流最新开源技术信息，qun号码：30537511，项目地址：https://github.com/DTStack

Apache Hudi 在袋鼠云数据湖平台的设计与实践的更多相关文章

基于Apache Hudi构建分析型数据湖
为了有机地发展业务,每个组织都在迅速采用分析. 在分析过程的帮助下,产品团队正在接收来自用户的反馈,并能够以更快的速度交付新功能. 通过分析提供的对用户的更深入了解,营销团队能够调整他们的活动以针对特 ...
使用Apache Flink 和 Apache Hudi 创建低延迟数据湖管道
近年来出现了从单体架构向微服务架构的转变.微服务架构使应用程序更容易扩展和更快地开发,支持创新并加快新功能上线时间.但是这种方法会导致数据存在于不同的孤岛中,这使得执行分析变得困难.为了获得更深入和更 ...
基于Apache Hudi在Google云构建数据湖平台
自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商品.多年来数据以多种方式存储在计算机中, ...
Apache Hudi：云数据湖解决方案
1. 引入开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录. 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟. Apache ...
Apache Hudi表自动同步至阿里云数据湖分析DLA
1. 引入 Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近 ...
Apache Hudi助力nClouds加速数据交付
1. 概述在nClouds上,当客户的业务决策取决于对近实时数据的访问时,客户通常会向我们寻求有关数据和分析平台的解决方案.但随着每天创建和收集的数据量都在增加,这使得使用传统技术进行数据分析成为一 ...
字节跳动基于Apache Hudi构建EB级数据湖实践
来自字节跳动的管梓越同学一篇关于Apache Hudi在字节跳动推荐系统中EB级数据量实践的分享. 接下来将分为场景需求.设计选型.功能支持.性能调优.未来展望五部分介绍Hudi在字节跳动推荐系统中的 ...
公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾
7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家 ...
Apache Hudi 0.9.0版本重磅发布！更强大的流式数据湖平台
1. 重点特性 1.1 Spark SQL支持 0.9.0 添加了对使用 Spark SQL 的 DDL/DML 的支持,朝着使所有角色(非工程师.分析师等)更容易访问和操作 Hudi 迈出了一大步. ...
Uber基于Apache Hudi构建PB级数据湖实践
1. 引言从确保准确预计到达时间到预测最佳交通路线,在Uber平台上提供安全.无缝的运输和交付体验需要可靠.高性能的大规模数据存储和分析.2016年,Uber开发了增量处理框架Apache Hudi ...

随机推荐

SQL INSERT批量插入方式
1.常规INSERT写法 INSERT INTO ... VALUES (...); INSERT INTO 表名( `字段1`, `字段2`) VALUES ('字段1的值', '字段2的值') ...
【Linux】3.11 包管理工具(RPM和YUM)
包管理工具 1. RPM包 RPM:RedHat Package Manager,红帽软件包管理工具. Linuxd分发版本都有采用(suse,redhat,centos等) 1.1 rpm指令 1. ...
【C语言】解决初始化数组时报错“undefined reference to `memcpy'”
[C语言]解决初始化数组时报错"undefined reference to `memcpy'" 零.报错代码: char start[] = {0xd, 0xa, 0xb3, ...
Go初入武林之乘法表
为统一管理源码, 请到gitee中查看. GoTimesTable
RuoYi-vue配置记录
如果这个项目能顺利运行,标志着Springboot+vue的前后端环境都配好了. 一.官方文档若依官方文档:介绍 | RuoYi,在这个地方克隆/下载项目源代码https://gitee.com/y ...
DevOps的工作岗位的要求
## 为什么需要DevOps 不是每个人都能理解可靠的版本管理和牢固的构建系统的重要性. 也不是任何人能使得软件的发布达到可靠性,可重复性和可审计的高标准.Devops的职责就是将软件的构建和发布的流 ...
Python科学计算系列1—方程和方程组
1.一元方程求解例1:求下列一元二次方程的解代码如下: # 定义数学符号 from sympy import symbols, solve x = symbols('x') f = x ** 2 ...
基于注解的 AOP 配置
第一步:在 spring 配置文件中开启 spring 对注解 AOP 的支持  <aop:aspectj-autopro ...
Python日志模块Logging使用指北
Python日志模块Logging使用指北作者:SkyXZ CSDN:SkyXZ--CSDN博客博客园:SkyXZ - 博客园 Logging模块是Python中一个很重要的日志模块,它提供了灵活 ...
App自动化的元素定位
一．Appium定位步骤打开appium,输入本地IP,点击启动服务器 1.点击启动检查器会话 2.配置所需功能,点击启动会话二．App页面元素 App页面元素分为布局和控件两种 1.布局 Fra ...

Apache Hudi 在袋鼠云数据湖平台的设计与实践