网易数帆实时数据湖 Arctic 的探索和实践

【网易数帆实时数据湖 Arctic 的探索和实践】的更多相关文章

性能1.84倍于Ceph！网易数帆Curve分布式存储开源

在上周刚结束的网易数字+大会上网易数帆宣布: 开源一款名为Curve的高性能分布式存储系统, 性能可达Ceph的1.84倍! 网易副总裁.网易杭州研究院执行院长兼网易数帆总经理汪源: 基础软件的能力对于数字化转型非常关键,当前存储领域需要一款性能更高.可用性/可靠性更好.自治能力更强的分布式存储系统,Curve的开源不仅代表网易数帆在基础软件市场的坚持,也为软件定义基础设施生态的繁荣再添一把火. 采用先进架构设计单卷性能1.84倍于Ceph Curve的定位,是提供一个高性能.低延迟的存储底…

网易数帆 Envoy Gateway 实践之旅：坚守 6 年，峥嵘渐显

服务网格成熟度不断提升,云原生环境下流量处理愈发重要, Envoy Gateway 项目于近日宣布开源,"旨在大幅降低将 Envoy 作为 API 网关的使用门槛",引发了业界关注.2018 年 11 月,Envoy 成为 CNCF 毕业项目,开始作为一款高性能数据和服务代理软件为从业者所知,但此后两三年,国内 API 网关实践中,选型 Envoy 仍是一条较为孤独的道路. 作为国内云原生实践的先行者,网易数帆轻舟云原生团队早在 2017 年就探索基于 Istio 和 Envoy 实现…

大咖说｜网易数帆论道 PolarDB 数据库开源 & 存储生态

开源技术如何商业化?将遇到什么问题?有哪些可行的解决办法?本期大咖说,阿里云数据库开源战役负责人曲山将携手网易副总裁汪源与你分享关于开源商业化的思考. 嘉宾简介网易副总裁.杭州研究院执行院长.网易数帆总经理-汪源阿里云数据库开源战役负责人.阿里云智能数据库产品事业部架构组负责人-曲山良好的开源生态具有哪些特征?开源社区繁荣的明显标志是什么? 以上为访谈内容整理,与你分享.感兴趣的朋友,还可以点击观看完整版视频: 阿里云[大咖说]每周推荐一场演讲或对话. 欢迎关注,搜索[大咖说小编]抖音.微博…

DataPipeline丨新型企业数据融合平台的探索与实践

文 |刘瀚林 DataPipeline后端研发负责人交流微信 | datapipeline2018 一.关于数据融合和企业数据融合平台数据融合是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享. 企业数据融合平台,通常的表现形态为运行着大量数据同步和转换任务的分布式系统.其源端一般为各类偏实时的业务数据存储系统,目的端为各类数据仓库/对象存储. 二.企业数据融合平台的典型架构下图为数据融合平台的典型架构,源端是不同的数据存储系统,另一端是各种类型的数…

从 Delta 2.0 开始聊聊我们需要怎样的数据湖

盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道. 虽然 Databricks 的工程师反复强调性能测试来自第三方 Databeans,并且他们没有主动要求 Databeans 做这项测试,但如果全程看完 delta2.0 发布会,会发现在 delta2.0 即将开放的 key feature 中,特别列出了 Iceberg 到 Delta 的转换功能,并且官方着重讲到了 Ad…

均有商业公司支持！2023再看数据湖 hudi iceberg delta2 社区发展现状！

开源数据湖三剑客 Apache hudi.Apache iceberg .Databricks delta 近年来大动作不断. 2021年8月,Apache Iceberg 的创始人 Ryan Blue.Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular. 2022年2月,Apache Hudi 也不甘示弱,创始人 Vinoth Chanda…

[云计算&大数据]概念辨析：数据仓库 | 数据湖 | 数据中心 | 数据中台 | 数据平台【待续】

今日客户对这些个概念不清楚,让我解释解释. 说实在的,虽然对各概念都有印象和理解,但我也不能完完全全地辨析得很清晰. 作为从业者,还是有必要拎清一点. 让一切业务数据化,一切数据业务化. 业务数据化数据资产化资产服务化 1 数据仓库定义数据仓库(Data Warehouse): 1. 由比尔·恩门于1990年提出,可简写为 DW 或 DWH. 2. 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,…

使用 Iceberg on Kubernetes 打造新一代云原生数据湖

背景大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,"仅仅"是发表了三篇技术论文.所以回头看,只能算是揭开了大数据时代的帷幕.随着 Hadoop 的诞生,大数据进入了高速发展的时代,大数据的红利及商业价值也不断被释放.现今大数据存储和处理需求越来越多样化,在后 Hadoop 时代,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,…

JuiceFS 在数据湖存储架构上的探索

大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,其次的话会再重点介绍一下关于 JuiceFS 和数据湖的一些结合和关联,最后会介绍一下 JuiceFS 和数据湖生态的集成. 大数据存储架构变迁纵观整个大数据存储架构的变迁,可以看到有非常明显的三个阶段:第一个阶段就是从最早的 Hadoop.Hive 等项目诞生之…

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk 关于Nishith Agarwal更详细的介绍,主要从事数据方面的工作,包括摄取标准化,数据湖原语等. 什么是数据湖?数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据.你可以存储原始数据,而不需要先转化为结构化的数据,基于数据湖之上可以运行多种类型的分析,如dashboard.大数据处理的可视化.实时分析.机器学习等. 接着看看对于构建PB…