统一元数据,数据湖Catalog让大数据存算分离不再是问题
摘要:为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。
1 背景
随着5G、IoT等技术的发展,企业积累了越来越多的数据,需要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期,不利于业务的高速发展;平台建成后,维护、升级、扩容均以集群为单位,管理离散,操作繁重。
众多用户采用了华为云大数据存算分离方案,存算分离解决方案指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。也正因为元数据不共享,导致现阶段大数据存算分离方案存在如下几点痛点:
- 缺少统一管理视图:元数据分散,难于统一管理;
- 缺少统一的细粒度权限管理:缺少统一的对数据库、表、列的权限控制,缺少有效的逻辑及权限隔离;
- 计算资源无法快速扩缩容:计算集群需要考虑元数据的备份和恢复,增加资源成本和运维成本;

2 数据湖Catalog简介
为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。
数据湖Catalog是面向多元计算引擎提供统一元数据服务。支持多元计算统一并共享元数据,实现引擎级元数据分离,全湖一张视图,支持业务灵活访问,助力存算分离架构升级变迁。数据湖Catalog主要有如下五点关键特性:
- 存算分离更专业、简化;
- 支持多引擎、多集群,灵活易用,性能更高;
- 多维度可靠性保驾护航;
- 细粒度权限管控,访问共享更安全;
- 支持元数据多版本以及DAG跟踪和分析;
经过数据湖Catalog加持后,在原有业务数据分离的基础上,实现引擎级元数据分离,主要有如下三大优势:
- 统一元数据管理,全湖统一数据资产视图,多引擎统一可视;
- 元数据多引擎共享,数据无需单独映射,软件多版本自由选择;
- 可靠性:计算与数据完全解耦,集群故障,数据可靠,元数据可靠;

3 数据湖Catalog关键特性
下面主要介绍数据湖Catalog五大关键特性。
3.1 存算分离更专业、简化
传统存算分离解决方案一般指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。而数据湖Catalog通过统一多集群、多类型计算的元数据管理,实现全湖统一数据资产视图,多引擎统一可视,数据无需单独映射,多引擎多版本自由选择。
- 数据湖Catalog独立部署,MRS集群释放不会清理元数据,元数据无需备份和迁移,节约运维管理成本,随用随释放;
- MRS集群可以做不同的业务,所有集群都可以很方便的实现数据共享和数据访问;
- MRS集群可以真正聚焦业务,根据业务需要进行集群的创建和释放,真正的可以做到按需创建、用完即释放,节约资源和运维成本。
3.2 支持多引擎、多集群,灵活易用,性能更高
传统大数据大多以MetaStore进行元数据管理,以thrift api方式对外提供元数据管理能力,且仅针对Hive生态相关元数据。而数据湖Catalog提供兼容Hive MetaStore API和RESTfull API,支持结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的协作。
- 兼容Hive MetaStore API,支持Hive生态诸如Hive/Spark/Presto/Impala/Flink等引擎,可以通过简单的配置即可快速实现数据湖Catalog对接集成;
- 支持华为云其他云服务以开放RESTfull API的方式进行对接集成;
- 基于MetaStore内核自底向上逐层优化,性能更高,某客户场景下性能较开源提升3-5倍;
3.3 多维度可靠性保驾护航
随着业务快速增长,数据湖Catalog提供了多维度可靠性增强能力,快速满足客户业务增长的诉求,为客户保驾护航。
- 支持跨AZ容灾部署、节点故障容错、特性级故障发现和自愈,为用户提供了高可用部署架构,极大提升业务的可靠性;
- 支持动态流控、静态流控、服务降级、接口级熔断,保障业务平滑应对业务激增;
- 支持公共服务依赖故障放通,当周边服务异常时,最大程度保证业务连续性;
- 支持丰富的集群监控和告警能力,实时发现系统异常,保障业务稳定运行;
3.4 细粒度权限管控,访问共享更安全
数据湖Catalog基于华为云IAM实现细粒度权限管控,将元数据作为资源进行统一权限管理。各云服务必须相应的权限才可以访问数据湖Catalog,例如表或分区。
- 支持基于角色的访问策略,数据湖Catalog对所有元数据的操作均支持基于角色的IAM策略。通过讲策略附加到账户中的用户或组,可向其授予数据湖Catalog中创建、访问或修改数据湖Catalog资源(例如表、分区)的权限。通过将策略附加到IAM角色,用户可以向其他华为云账户中的IAM角色授予跨账户访问权限;
- 支持使用资源策略控制对数据湖Catalog资源的访问,这些资源包括数据库、表、分区和用户定义的函数,以及与这些资源交互的APIs;
- 支持基于角色或资源的访问策略跨账户授予访问权限,实现多账号间元数据的共享和访问控制。
3.5 支持元数据多版本以及DAG跟踪和分析
在经典机器学习场景和深度学习场景下,数据类型、数据版本、工程(模型、脚本等)随时间变化,难以复用,难以监管。数据湖Catalog提供元数据多版本能力,让AI数据开发项目如同GIT管理代码一样管理涉及到的数据和工程模型、脚本。与此同时,数据湖Catalog提供DAG跟踪和分析能力,可以帮助AI数据开发按照时间线、流水线查看不同时期、不同阶段的模型指标以及上下游信息。数据湖Catalog可以帮助极大提升AI数据开发的效率。
4 典型应用场景
4.1 基于MRS构建企业级数据湖大数据处理分析平台
用户基于华为云MapReduce服务构建自己的数据湖数据处理分析平台,随着企业快速发展,集群规模和数据也急剧膨胀,用户迫切需要完全解耦计算和数据,让计算资源可以按需使用,集中统一管理不同存储中的元数据。
数据湖Catalog价值
- 多MRS集群元数据统一管理,避免数据孤岛;
- 自底向上逐层优化,性能更高;
- 多维度可靠性保驾护航,更可靠;
- 支持细粒度权限管控,更安全;
4.2 基于ModelArts构建数据湖AI开发平台
大数据是AI的基础,AI也是大数据的未来。数据湖可以很好的在经典机器学习场景和深度学习场景下服务用户:经验和数据靠个人、无管理;难以复用,难以监管;数据类型多,不同团队用的工具不同,随时间变化;无数据版本和分支管理;缺乏数据回流机制,需要数据湖具备能够统一“表”、“数据集”等概念,形成高层次的协作,需要数据湖具备能够实现元数据统一并借此进行数据版本和分支管理。
数据湖Catalog价值
- 提供多引擎SDK和REST API,方便用户集成;
- 支持多版本管理,包括数据版本、分支、事务等;
- 支持AI和大数据DAG血缘跟踪和分析;
- 统一元数据模型,助力异构数据源统一数据服务;
5 总结
数据湖Catalog极大增强MRS服务存算分离方面的能力,让MRS更聚焦算力,真正能按需创建、用完即释放,为用户节约了资源成本和运维管理成本;同时对ModelArts构建数据湖AI开发平台提供企业级经验和数据复用、异构数据源统一访问、多版本管理和DAG血缘管理提供了坚实的元数据管理基础。对于用户构建企业级数据湖大数据处理分析平台和数据湖AI开发平台,数据湖Catalog将会成为用户统一元数据管理平台首选。
同时作为一款新的重量级统一元数据管理服务,我们在引擎元数据领域还在持续学习和探索过程中,数据湖Catalog后面会持续从性能优化、可靠性、生态建设、数据价值挖掘多个角度进行优化和改进,包括统计分析、CBO以及扩展应用、AI融合高级特性等。
本文分享自华为云社区《统一元数据,华为云MRS 数据湖Catalog重磅推出!》,原文作者:ryanlunar。
统一元数据,数据湖Catalog让大数据存算分离不再是问题的更多相关文章
- 构建数据湖上低延迟数据 Pipeline 的实践
T 摘要 · 云原生与数据湖是当今大数据领域最热的 2 个话题,本文着重从为什么传统数仓 无法满足业务需求? 为何需要建设数据湖?数据湖整体技术架构.Apache Hudi 存储模式与视图.如何解决冷 ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
- 腾讯云 CHDFS — 云端大数据存算分离的基石
随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- 《当大数据遇见网络:大数据与SDN》
总体结构: <当大数据遇见网络:大数据与SDN> 摘要 大数据和SDN无论是对于学术界还是工业界来说都极具吸引力.传统上人们都是分别在最前沿工作中研究这两个重要的领域.然而一方面,SDN的 ...
- 分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势
> 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向"大数据时代".而我们作为大数据的践行者,在这个"多智时代"如何才能跟上大数据的潮流, ...
- 大数据笔记05:大数据之Hadoop的HDFS(数据管理策略)
HDFS中数据管理与容错 1.数据块的放置 每个数据块3个副本,就像上面的数据库A一样,这是因为数据在传输过程中任何一个节点都有可能出现故障(没有办法,廉价机器就是这样的) ...
- 大数据笔记01:大数据之Hadoop简介
1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
- 【若泽大数据】玩转大数据之Spark零基础到实战
https://www.bilibili.com/video/av29407581?p=1 若泽大数据官网 http://www.ruozedata.com/ tidb 系列三:有了sparkjdbc ...
- 大数据(1)---大数据及HDFS简述
一.大数据简述 在互联技术飞速发展过程中,越来越多的人融入互联网.也就意味着各个平台的用户所产生的数据也越来越多,可以说是爆炸式的增长,以前传统的数据处理的技术已经无法胜任了.比如淘宝,每天的活跃用户 ...
随机推荐
- 16.2 ARP 主机探测技术
ARP (Address Resolution Protocol,地址解析协议),是一种用于将 IP 地址转换为物理地址(MAC地址)的协议.它在 TCP/IP 协议栈中处于链路层,为了在局域网中能够 ...
- Golang后端大厂面经!
大家好,我是阳哥.专注Go语言的学习经验分享和就业辅导. 之前分享了很多 Golang 后端的大厂面经,不少同学在催更新,这篇给大家继续安排. 本文来自一位同学的投稿,面试深X服的面经汇总,前半部分主 ...
- 什么是Kubernetes
什么是Kubernetes Kubernetes 概述 1.K8S 是什么? K8S 的全称为 Kubernetes (K12345678S),PS:"嘛,写全称也太累了吧,不如整个缩写&q ...
- ACTF 2023 部分WP
来自密码手的哀嚎: 玩不了一点,太难了. CRYPTO MDH Description Malin's Diffile-Hellman Key Exchange. task.sage from has ...
- String类的valueOf以及动态绑定(多态)
1.String类的valueOf Class String public static String valueOf(Object obj) Returns the string represent ...
- 避免defer陷阱:拆解延迟语句,掌握正确使用方法
基本概念 Go语言的延迟语句defer有哪些特点?通常在什么情况下使用? Go语言的延迟语句(defer statement)具有以下特点: 延迟执行:延迟语句会在包含它的函数执行结束前执行,无论函数 ...
- Kubernetes Gateway API 攻略:解锁集群流量服务新维度!
Kubernetes Gateway API 刚刚 GA,旨在改进将集群服务暴露给外部的过程.这其中包括一套更标准.更强大的 API资源,用于管理已暴露的服务.在这篇文章中,我将介绍 Gateway ...
- 【结对作业】 第一周 | 学习体会day05
实现了单条地铁线路的直达 进行了页面的优化,实现了侧边栏功能 并且对第二天(今天)的任务进行了规划.
- Java八股面试整理(3)
21.说一说hashCode()和equals()的关系 hashCode()用于获取哈希码(散列码),eauqls()用于比较两个对象是否相等,它们应遵守如下规定: 如果两个对象相等,则它们必须有相 ...
- python函数定义、调用、参数、返回
python函数定义语法: 定义: Def foo(): print('bar') print('bar2') 如果函数内容特别少,可以一行定义 : Def foo(): print('bar') ...