统一元数据,数据湖Catalog让大数据存算分离不再是问题
摘要:为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。
1 背景
随着5G、IoT等技术的发展,企业积累了越来越多的数据,需要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期,不利于业务的高速发展;平台建成后,维护、升级、扩容均以集群为单位,管理离散,操作繁重。
众多用户采用了华为云大数据存算分离方案,存算分离解决方案指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。也正因为元数据不共享,导致现阶段大数据存算分离方案存在如下几点痛点:
- 缺少统一管理视图:元数据分散,难于统一管理;
- 缺少统一的细粒度权限管理:缺少统一的对数据库、表、列的权限控制,缺少有效的逻辑及权限隔离;
- 计算资源无法快速扩缩容:计算集群需要考虑元数据的备份和恢复,增加资源成本和运维成本;

2 数据湖Catalog简介
为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。
数据湖Catalog是面向多元计算引擎提供统一元数据服务。支持多元计算统一并共享元数据,实现引擎级元数据分离,全湖一张视图,支持业务灵活访问,助力存算分离架构升级变迁。数据湖Catalog主要有如下五点关键特性:
- 存算分离更专业、简化;
- 支持多引擎、多集群,灵活易用,性能更高;
- 多维度可靠性保驾护航;
- 细粒度权限管控,访问共享更安全;
- 支持元数据多版本以及DAG跟踪和分析;
经过数据湖Catalog加持后,在原有业务数据分离的基础上,实现引擎级元数据分离,主要有如下三大优势:
- 统一元数据管理,全湖统一数据资产视图,多引擎统一可视;
- 元数据多引擎共享,数据无需单独映射,软件多版本自由选择;
- 可靠性:计算与数据完全解耦,集群故障,数据可靠,元数据可靠;

3 数据湖Catalog关键特性
下面主要介绍数据湖Catalog五大关键特性。
3.1 存算分离更专业、简化
传统存算分离解决方案一般指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。而数据湖Catalog通过统一多集群、多类型计算的元数据管理,实现全湖统一数据资产视图,多引擎统一可视,数据无需单独映射,多引擎多版本自由选择。
- 数据湖Catalog独立部署,MRS集群释放不会清理元数据,元数据无需备份和迁移,节约运维管理成本,随用随释放;
- MRS集群可以做不同的业务,所有集群都可以很方便的实现数据共享和数据访问;
- MRS集群可以真正聚焦业务,根据业务需要进行集群的创建和释放,真正的可以做到按需创建、用完即释放,节约资源和运维成本。
3.2 支持多引擎、多集群,灵活易用,性能更高
传统大数据大多以MetaStore进行元数据管理,以thrift api方式对外提供元数据管理能力,且仅针对Hive生态相关元数据。而数据湖Catalog提供兼容Hive MetaStore API和RESTfull API,支持结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的协作。
- 兼容Hive MetaStore API,支持Hive生态诸如Hive/Spark/Presto/Impala/Flink等引擎,可以通过简单的配置即可快速实现数据湖Catalog对接集成;
- 支持华为云其他云服务以开放RESTfull API的方式进行对接集成;
- 基于MetaStore内核自底向上逐层优化,性能更高,某客户场景下性能较开源提升3-5倍;
3.3 多维度可靠性保驾护航
随着业务快速增长,数据湖Catalog提供了多维度可靠性增强能力,快速满足客户业务增长的诉求,为客户保驾护航。
- 支持跨AZ容灾部署、节点故障容错、特性级故障发现和自愈,为用户提供了高可用部署架构,极大提升业务的可靠性;
- 支持动态流控、静态流控、服务降级、接口级熔断,保障业务平滑应对业务激增;
- 支持公共服务依赖故障放通,当周边服务异常时,最大程度保证业务连续性;
- 支持丰富的集群监控和告警能力,实时发现系统异常,保障业务稳定运行;
3.4 细粒度权限管控,访问共享更安全
数据湖Catalog基于华为云IAM实现细粒度权限管控,将元数据作为资源进行统一权限管理。各云服务必须相应的权限才可以访问数据湖Catalog,例如表或分区。
- 支持基于角色的访问策略,数据湖Catalog对所有元数据的操作均支持基于角色的IAM策略。通过讲策略附加到账户中的用户或组,可向其授予数据湖Catalog中创建、访问或修改数据湖Catalog资源(例如表、分区)的权限。通过将策略附加到IAM角色,用户可以向其他华为云账户中的IAM角色授予跨账户访问权限;
- 支持使用资源策略控制对数据湖Catalog资源的访问,这些资源包括数据库、表、分区和用户定义的函数,以及与这些资源交互的APIs;
- 支持基于角色或资源的访问策略跨账户授予访问权限,实现多账号间元数据的共享和访问控制。
3.5 支持元数据多版本以及DAG跟踪和分析
在经典机器学习场景和深度学习场景下,数据类型、数据版本、工程(模型、脚本等)随时间变化,难以复用,难以监管。数据湖Catalog提供元数据多版本能力,让AI数据开发项目如同GIT管理代码一样管理涉及到的数据和工程模型、脚本。与此同时,数据湖Catalog提供DAG跟踪和分析能力,可以帮助AI数据开发按照时间线、流水线查看不同时期、不同阶段的模型指标以及上下游信息。数据湖Catalog可以帮助极大提升AI数据开发的效率。
4 典型应用场景
4.1 基于MRS构建企业级数据湖大数据处理分析平台
用户基于华为云MapReduce服务构建自己的数据湖数据处理分析平台,随着企业快速发展,集群规模和数据也急剧膨胀,用户迫切需要完全解耦计算和数据,让计算资源可以按需使用,集中统一管理不同存储中的元数据。
数据湖Catalog价值
- 多MRS集群元数据统一管理,避免数据孤岛;
- 自底向上逐层优化,性能更高;
- 多维度可靠性保驾护航,更可靠;
- 支持细粒度权限管控,更安全;
4.2 基于ModelArts构建数据湖AI开发平台
大数据是AI的基础,AI也是大数据的未来。数据湖可以很好的在经典机器学习场景和深度学习场景下服务用户:经验和数据靠个人、无管理;难以复用,难以监管;数据类型多,不同团队用的工具不同,随时间变化;无数据版本和分支管理;缺乏数据回流机制,需要数据湖具备能够统一“表”、“数据集”等概念,形成高层次的协作,需要数据湖具备能够实现元数据统一并借此进行数据版本和分支管理。
数据湖Catalog价值
- 提供多引擎SDK和REST API,方便用户集成;
- 支持多版本管理,包括数据版本、分支、事务等;
- 支持AI和大数据DAG血缘跟踪和分析;
- 统一元数据模型,助力异构数据源统一数据服务;
5 总结
数据湖Catalog极大增强MRS服务存算分离方面的能力,让MRS更聚焦算力,真正能按需创建、用完即释放,为用户节约了资源成本和运维管理成本;同时对ModelArts构建数据湖AI开发平台提供企业级经验和数据复用、异构数据源统一访问、多版本管理和DAG血缘管理提供了坚实的元数据管理基础。对于用户构建企业级数据湖大数据处理分析平台和数据湖AI开发平台,数据湖Catalog将会成为用户统一元数据管理平台首选。
同时作为一款新的重量级统一元数据管理服务,我们在引擎元数据领域还在持续学习和探索过程中,数据湖Catalog后面会持续从性能优化、可靠性、生态建设、数据价值挖掘多个角度进行优化和改进,包括统计分析、CBO以及扩展应用、AI融合高级特性等。
本文分享自华为云社区《统一元数据,华为云MRS 数据湖Catalog重磅推出!》,原文作者:ryanlunar。
统一元数据,数据湖Catalog让大数据存算分离不再是问题的更多相关文章
- 构建数据湖上低延迟数据 Pipeline 的实践
T 摘要 · 云原生与数据湖是当今大数据领域最热的 2 个话题,本文着重从为什么传统数仓 无法满足业务需求? 为何需要建设数据湖?数据湖整体技术架构.Apache Hudi 存储模式与视图.如何解决冷 ...
- Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
- 腾讯云 CHDFS — 云端大数据存算分离的基石
随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同 ...
- 从 Hadoop 到云原生, 大数据平台如何做存算分离
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...
- 《当大数据遇见网络:大数据与SDN》
总体结构: <当大数据遇见网络:大数据与SDN> 摘要 大数据和SDN无论是对于学术界还是工业界来说都极具吸引力.传统上人们都是分别在最前沿工作中研究这两个重要的领域.然而一方面,SDN的 ...
- 分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势
> 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向"大数据时代".而我们作为大数据的践行者,在这个"多智时代"如何才能跟上大数据的潮流, ...
- 大数据笔记05:大数据之Hadoop的HDFS(数据管理策略)
HDFS中数据管理与容错 1.数据块的放置 每个数据块3个副本,就像上面的数据库A一样,这是因为数据在传输过程中任何一个节点都有可能出现故障(没有办法,廉价机器就是这样的) ...
- 大数据笔记01:大数据之Hadoop简介
1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
- 【若泽大数据】玩转大数据之Spark零基础到实战
https://www.bilibili.com/video/av29407581?p=1 若泽大数据官网 http://www.ruozedata.com/ tidb 系列三:有了sparkjdbc ...
- 大数据(1)---大数据及HDFS简述
一.大数据简述 在互联技术飞速发展过程中,越来越多的人融入互联网.也就意味着各个平台的用户所产生的数据也越来越多,可以说是爆炸式的增长,以前传统的数据处理的技术已经无法胜任了.比如淘宝,每天的活跃用户 ...
随机推荐
- ACL 与NAT
ACL 概述 acl是由一系列permit或deny语句组成.有序规则的列表. ACL是一个匹配工具,能够对报文进行匹配和区分. 应用 匹配流量 在traffic-filter中备调用 在NAT中被调 ...
- 高性能队列——Disruptor(转)
https://tech.meituan.com/disruptor.html 背景 Disruptor是英国外汇交易公司LMAX开发的一个高性能队列,研发的初衷是解决内存队列的延迟问题(在性能测试中 ...
- git 忽略已提交(commit)的文件/文件夹
git 忽略已提交的文件或文件夹 最好是在工程一开始就编辑好 .gitignore 文件, 在第一次提交的时候仔细检查避免添加那些无用的文件 因为 .gitignore 只能对未提交过的文件起效, 也 ...
- 递归+DP:爬楼梯问题
一只青蛙一次可以跳上 1 级台阶,也可以跳上2 级.求该青蛙跳上一个n 级的台阶总共有多少种跳法. 输入格式: 首先输入数字n,代表接下来有n组输入,50>=n>=0,然后每行一个 ...
- Git、GitHub、Gitlab的区别以及与SVN的比较
概念解析 Git Git是一个开源的分布式版本控制系统(Version Control System,VCS),可以有效.高速地处理项目版本管理. 版本控制是一种记录一个或若干文件内容变化,以 ...
- python3使用libpcap给ESL命令添加日志记录
操作系统 :CentOS 7.6_x64 FreeSWITCH版本 :1.10.9 python版本:3.9.12 libpcap版本:1.11.0b7 FreeSWITCH的ESL模块用起来很方 ...
- Linux MIPI 调试中常见的问题
一.概述 做嵌入式工作的小伙伴知道,有时候程序编写没有调试过程中费时,之间笔记里有 MIPI 摄像头驱动开发的过程,有需要的小伙伴可以参考:Linux RN6752 驱动编写. 而我也是第一次琢磨 M ...
- 【驱动】串口驱动分析(二)-tty core
前言 tty这个名称源于电传打字节的简称,在linux表示各种终端,终端通常都跟硬件相对应.比如对应于输入设备键盘鼠标,输出设备显示器的控制终端和串口终端.也有对应于不存在设备的pty驱动.在如此众多 ...
- Java八股面试题整理(1)
1.为什么Java代码可以实现一次编写,到处运行? 参考答案 JVM(Java虚拟机)是Java跨平台的关键. 在程序运行前,Java源代码(.java)需要经过编译器编译成字节码(.class).在 ...
- 上传代码到github和删除.git
在本地建立目录,将想上传的代码放到该文件夹中 git init ###初始化 git add . ###将本地项目工作区的所有文件添加到暂存区 git commit -m "excu&quo ...