数字化转型趋势下,各行业对数据生产力的探索与追求逐步进入深水区。现实的问题是,企业数据仓库存储、数据湖多种技术并存的局面将长期存在,如何才能摆脱技术协同的内耗,让大数据直通生产力的彼岸?

8月11日下午,网易数帆与华泰证券携手于线上举办企业级流式湖仓服务Arctic开源发布会,宣布以开源的Arctic完善现有数据湖底座,拓展数据平台的边界,改善产品、数据孤岛和流程规范割裂带来的低效和成本浪费,推动湖仓一体、流批融合落地,实现数据生产力,驱动业务价值。

Arctic开源:不魔改,不封闭,推动数据生产力落地

面对网易的多元化业务、多元化技术,网易数帆在推动数据生产力时遇到了文章开头提到的问题,但网易数帆从基础设施、数据研发、数据中台到数据产品,建设了一套完善的大数据技术体系,并推广应用到金融、零售、流通、制造等行业三百余家客户。

网易数帆大数据产品线总经理余利华表示,这成果得益于网易数帆构建大数据体系时的两大技术原则:开放式架构和开源。开放式架构采用模块化设计和大量开源组件实现,这使得该体系能力全面、生命力强,同时建设成本低。当然这也带来了使用复杂、维护复杂的问题,而网易数帆通过融入开源社区解决这个问题,典型的如通过开源Apache Kyuubi构建统一SQL网关,为数据湖提供统一的入口。

网易数帆大数据产品线总经理余利华

参与到金融行业数字化转型,让网易数帆发现了新的挑战:金融企业希望融合实时数据湖与数据仓库,打造实时数据中台支撑其数字化业务创新。这本质上正是湖仓一体的思路,但目前的主流数据湖技术等只解决了更新、大表访问性能、流式消费等问题,仍然遗留小文件导致性能损耗、兼容性和流失更新等性能和易用性相关问题,而开源社区尚未出现对应的解决方案。这就是网易数帆研发并开源流式湖仓服务Arctic项目的直接原因。

Arctic是搭建在 Apache Iceberg之上的流式湖仓服务(Streaming LakeHouse Service)。通过 Arctic,用户可以在 Flink、Spark、Trino 等引擎上实现更加优化的 CDC、流式更新、OLAP 等功能, 结合数据湖高效的离线处理能力,Arctic 能够服务于更多流批混用的场景;同时,Arctic 的结构自优化、并发冲突解决以及标准化的湖仓管理功能,可以有效减少用户在数据湖管理和优化上的负担。

余利华表示,秉承开放式架构原则,Arctic立足开源数据湖,拒绝魔改,不绑定计算引擎,注重与传统数仓Hive的兼容。这是继SQL统一入口之后,网易数帆大数据体系再次在存储层面实现统一,这使得数据中台体系可以无缝扩展到实时场景,企业数据生产力的发挥将不再被孤岛所困扰。金融行业的应用实践,也验证了这一思路的价值。

Arctic设计:重塑成本、性能和数据新鲜度的平衡

网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进进一步介绍了Arctic项目的目标、特性、规划以及给开源用户带来的价值。

马进表示,Arctic的定位是流式湖仓服务,流式强调向实时能力的拓展,服务则强调管理、标准化度量,以及其他可以抽象到基础软件中的湖仓一体能力。

网易数帆大数据实时计算技术专家、湖仓一体项目负责人马进

当前数据湖技术虽多,提供的都是各种数据湖格式,而非真正的湖仓一体平台。这些格式已经存在于企业环境,Arctic作为服务可以去适配不同的数据湖格式,使得企业无需担心数据湖技术的选型问题,持续优化数据分析能力,也让数据流管理变得简单。

在能力上,Arctic不仅提供了基于主键高效地流式更新,数据自动分桶、结构自优化的特性,还支持将数据湖和消息队列封装成统一的表,实现比传统方案更低延迟的流批一体,从根本上优雅地解决性能问题。另一方面,Arctic还提供流式数仓标准化的度量,dashboard 和相关管理工具,并为流批并发写入提供事务性保障。

在架构上,Arctic设计简洁,只有AMS、optimizer和 dashboard三个组件,在数据湖和计算引擎之间提供湖仓一体落地所需的能力,但却支持Spark 和 Flink 读写及Trino查询,百分百兼容 Iceberg / Hive 的表格式和语法,这使得它的使用成本很低。

马进还强调了Arctic定位的深层意义:“当我们将数据湖的能力拓展到实时场景,成本、性能和数据新鲜度三者的关系将呈现更为复杂和微妙的状态,Arctic 的服务和管理功能,将为用户和上层平台理清这个三角关系。”

华泰证券:Arctic助力金融数智中台实时湖仓完善

华泰证券大数据流计算技术专家陈丰介绍了Arctic在华泰数智中台实时湖仓建设中发挥的作用。实时湖仓在华泰证券日内数据离线加工、实时关联大量历史数据、金融数据频繁修正、统一埋点加工链路等方面具有极大的价值,然而当前数仓建设面临流批链路分开建设、纯实时业务逻辑复杂、数据存储不统一、数据更新复杂以及演进难等五大问题。

华泰证券大数据流计算技术专家陈丰

“业界给出了Iceberg、Hudi等解决方案,但我们业务、平台需要的不仅仅是单一的开源数据湖组件。”陈丰说,华泰证券对实时数据湖建设设定了流批一体、高性能低延迟、兼容现有Hive/Impala等多重目标。

华泰证券与网易数帆合作,引入Arctic实现实时湖仓,并在融资融券、埋点日志运营等场景实现了良好的应用和出色的性能。例如融资融券场景包括了大量历史数据联合计算,使用流式计算实现逻辑复杂。从离线架构到实时架构,再到实时湖仓架构的升级后,整体实现逻辑明了,且端到端延迟时间从T+1天缩短到了T+20分钟。

社区规划:欢迎所有成员贡献、分享、协作

马进还介绍了Arctic开源社区的规划,将为开发者、用户等成员建立一个公开、自由的全球数据湖技术交流社区,所有成员可通过贡献、分享、协作的方式参与社区。

共建企业参与计划同步启动,华泰证券作为 Arctic 开源社区的首家共建单位,在 Arctic 项目开源之初率先了加入社区参与建设,不仅作为用户结合业务场景提供真实的使用反馈,也作为开发力量共同持续探索流式湖仓技术领域创新性功能。

未来,华泰证券将进一步繁荣 Arctic 社区生态,与Arctic 社区小伙伴一起,共同打造一款全球领先的流式湖仓服务创新产品,构建繁荣的数据湖仓生态圈。

【点击链接,免费领取更多精选行业报告】

Arctic开源!网易数帆×华泰证券,推动湖仓一体落地的更多相关文章

  1. 性能1.84倍于Ceph!网易数帆Curve分布式存储开源

    在上周刚结束的网易数字+大会上 网易数帆宣布: 开源一款名为Curve的高性能分布式存储系统, 性能可达Ceph的1.84倍! 网易副总裁.网易杭州研究院执行院长兼网易数帆总经理汪源: 基础软件的能力 ...

  2. 大咖说|网易数帆论道 PolarDB 数据库开源 & 存储生态

    开源技术如何商业化?将遇到什么问题?有哪些可行的解决办法?本期大咖说,阿里云数据库开源战役负责人曲山将携手网易副总裁汪源与你分享关于开源商业化的思考. 嘉宾简介 网易副总裁.杭州研究院执行院长.网易数 ...

  3. 网易数帆 Envoy Gateway 实践之旅:坚守 6 年,峥嵘渐显

    服务网格成熟度不断提升,云原生环境下流量处理愈发重要, Envoy Gateway 项目于近日宣布开源,"旨在大幅降低将 Envoy 作为 API 网关的使用门槛",引发了业界关注 ...

  4. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  5. 李呈祥:bilibili在湖仓一体查询加速上的实践与探索

    导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践.主要内容包括: 什么是湖仓一体架构 哔哩哔哩目前的湖仓一体架构 湖仓一体架构下,数据的排序组织优化 湖仓一 ...

  6. 划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?

    此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了. 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apa ...

  7. 华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值

    摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地"存"与"算"的管理,加快推进了 ...

  8. MRS+LakeFormation:打造一站式湖仓,释放数据价值

    摘要:华为LakeFormation是企业级的一站式湖仓构建服务. 本文分享自华为云社区<华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值]>,作者:break ...

  9. Apache Hudi在华米科技的应用-湖仓一体化改造

    徐昱 Apache Hudi Contributor:华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技 ...

  10. 给王心凌打Call的,原来是神奇的智能湖仓

    图文原创:谭婧(王凌老粉) "爷青回" "我们只是老了,并没有死." 谭老师作为老粉,热烈庆祝"甜心教主"王凌成为现象级翻红顶流. 只要地球 ...

随机推荐

  1. Hugging Face ZeroGPU 计划正式发布—提供价值一千万美元的免费共享 GPU

    在人工智能技术领域,GPU 资源一直是推动研究和应用的关键因素.然而,GPU 的成本和可用性对于许多研究人员和开发者来说却是一个显著的障碍. 在 Hugging Face,我们希望人工智能技术可以更加 ...

  2. 制作SSL证书(签发免费证书)

    制作SSL证书(签发免费证书) 下载证书生成器 wget https://pkg.cfssl.org/R1.2/cfssl_linux-amd64 wget https://pkg.cfssl.org ...

  3. minio-搭建个人云存储服务

    相信风靡全球的亚马逊 AWS S3 的存储云服务大家已经耳熟能详了,如何自己搭建一个私有的S3存储云服务呢?Minio 提供对象存储服务,兼容了 AWS S3 存储协议,用于非结构化的数据存.非结构化 ...

  4. Jenkins通过脚本进行自动发布

    编写以下脚本: ------------------------------------------------------------------------------------- #!/bin ...

  5. Vue3.0+typescript+Vite+Pinia+Element-plus搭建vue3框架!

    使用 Vite 快速搭建脚手架 命令行选项直接指定项目名称和想要使用的模板,Vite + Vue 项目,运行(推荐使用yarn) # npm 6.x npm init vite@latest my-v ...

  6. CF1836

    A.Destroyer 开个桶记录个数,看满不满足单调不上升即可. B.Astrophysicists 辛辛苦苦写了这么久的文章就没了????烦死了. 自己做 Virtual Contest 的时候这 ...

  7. 算法学习笔记(13): Manacher算法

    Manacher算法 形象的被译为马拉车算法 这个算法用于处理简单的回文字符串的问题.可以在 \(O(n)\) 的复杂度内处理出每一个位置为中心的回文串的最长长度. 为了避免出现偶数长度的回文串,导致 ...

  8. IceRPC之依赖注入>快乐的RPC

    作者引言 很高兴啊,我们来到了IceRPC之依赖注入>快乐的RPC,基础引导,打好基础,才能让自已不在迷茫,快乐的畅游世界. 依赖注入和IceRPC 了解 IceRPC (C#) 如何为依赖注入 ...

  9. UDP 发送两遍对比一致能绝对判定发送过程成功传递完整数据吗

    UDP 发送两边对比一致,能确定数据传输无错误吗 对比两条相同数据的MD5 这样做可行吗

  10. Windows 下自动预约申购 i茅台

    今天分享一个自动预约抢茅子的工具! 前期准备工作: 1.需安装:.Net6 依赖 (根据操作系统选择 x64 或 x86 版本进行下载.) 安装软件 1.软件下来下来之后,解压并进入软件目录,我们双击 ...