摘要:为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。

1 背景

随着5G、IoT等技术的发展,企业积累了越来越多的数据,需要激发更多的数据价值变现。传统大数据平台从建设到落地的长周期,不利于业务的高速发展;平台建成后,维护、升级、扩容均以集群为单位,管理离散,操作繁重。

众多用户采用了华为云大数据存算分离方案,存算分离解决方案指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。也正因为元数据不共享,导致现阶段大数据存算分离方案存在如下几点痛点:

  1. 缺少统一管理视图:元数据分散,难于统一管理;
  2. 缺少统一的细粒度权限管理:缺少统一的对数据库、表、列的权限控制,缺少有效的逻辑及权限隔离;
  3. 计算资源无法快速扩缩容:计算集群需要考虑元数据的备份和恢复,增加资源成本和运维成本;

2 数据湖Catalog简介

为了解决现阶段大数据存算分离痛点问题,华为云大数据推出重量级数据湖Catalog服务。

数据湖Catalog是面向多元计算引擎提供统一元数据服务。支持多元计算统一并共享元数据,实现引擎级元数据分离,全湖一张视图,支持业务灵活访问,助力存算分离架构升级变迁。数据湖Catalog主要有如下五点关键特性:

  1. 存算分离更专业、简化;
  2. 支持多引擎、多集群,灵活易用,性能更高;
  3. 多维度可靠性保驾护航;
  4. 细粒度权限管控,访问共享更安全;
  5. 支持元数据多版本以及DAG跟踪和分析;

经过数据湖Catalog加持后,在原有业务数据分离的基础上,实现引擎级元数据分离,主要有如下三大优势:

  1. 统一元数据管理,全湖统一数据资产视图,多引擎统一可视;
  2. 元数据多引擎共享,数据无需单独映射,软件多版本自由选择;
  3. 可靠性:计算与数据完全解耦,集群故障,数据可靠,元数据可靠;

3 数据湖Catalog关键特性

下面主要介绍数据湖Catalog五大关键特性。

3.1 存算分离更专业、简化

传统存算分离解决方案一般指的是业务数据分离,共享的是数据,元数据不共享,每类引擎单独映射构建。而数据湖Catalog通过统一多集群、多类型计算的元数据管理,实现全湖统一数据资产视图,多引擎统一可视,数据无需单独映射,多引擎多版本自由选择。

  1. 数据湖Catalog独立部署,MRS集群释放不会清理元数据,元数据无需备份和迁移,节约运维管理成本,随用随释放;
  2. MRS集群可以做不同的业务,所有集群都可以很方便的实现数据共享和数据访问;
  3. MRS集群可以真正聚焦业务,根据业务需要进行集群的创建和释放,真正的可以做到按需创建、用完即释放,节约资源和运维成本。

3.2 支持多引擎、多集群,灵活易用,性能更高

传统大数据大多以MetaStore进行元数据管理,以thrift api方式对外提供元数据管理能力,且仅针对Hive生态相关元数据。而数据湖Catalog提供兼容Hive MetaStore API和RESTfull API,支持结构化、非结构化数据源以结构化的模型进行元数据管理助力高层次的协作。

  1. 兼容Hive MetaStore API,支持Hive生态诸如Hive/Spark/Presto/Impala/Flink等引擎,可以通过简单的配置即可快速实现数据湖Catalog对接集成;
  2. 支持华为云其他云服务以开放RESTfull API的方式进行对接集成;
  3. 基于MetaStore内核自底向上逐层优化,性能更高,某客户场景下性能较开源提升3-5倍;

3.3 多维度可靠性保驾护航

随着业务快速增长,数据湖Catalog提供了多维度可靠性增强能力,快速满足客户业务增长的诉求,为客户保驾护航。

  1. 支持跨AZ容灾部署、节点故障容错、特性级故障发现和自愈,为用户提供了高可用部署架构,极大提升业务的可靠性;
  2. 支持动态流控、静态流控、服务降级、接口级熔断,保障业务平滑应对业务激增;
  3. 支持公共服务依赖故障放通,当周边服务异常时,最大程度保证业务连续性;
  4. 支持丰富的集群监控和告警能力,实时发现系统异常,保障业务稳定运行;

3.4 细粒度权限管控,访问共享更安全

数据湖Catalog基于华为云IAM实现细粒度权限管控,将元数据作为资源进行统一权限管理。各云服务必须相应的权限才可以访问数据湖Catalog,例如表或分区。

  1. 支持基于角色的访问策略,数据湖Catalog对所有元数据的操作均支持基于角色的IAM策略。通过讲策略附加到账户中的用户或组,可向其授予数据湖Catalog中创建、访问或修改数据湖Catalog资源(例如表、分区)的权限。通过将策略附加到IAM角色,用户可以向其他华为云账户中的IAM角色授予跨账户访问权限;
  2. 支持使用资源策略控制对数据湖Catalog资源的访问,这些资源包括数据库、表、分区和用户定义的函数,以及与这些资源交互的APIs;
  3. 支持基于角色或资源的访问策略跨账户授予访问权限,实现多账号间元数据的共享和访问控制。

3.5 支持元数据多版本以及DAG跟踪和分析

在经典机器学习场景和深度学习场景下,数据类型、数据版本、工程(模型、脚本等)随时间变化,难以复用,难以监管。数据湖Catalog提供元数据多版本能力,让AI数据开发项目如同GIT管理代码一样管理涉及到的数据和工程模型、脚本。与此同时,数据湖Catalog提供DAG跟踪和分析能力,可以帮助AI数据开发按照时间线、流水线查看不同时期、不同阶段的模型指标以及上下游信息。数据湖Catalog可以帮助极大提升AI数据开发的效率。

4 典型应用场景

4.1 基于MRS构建企业级数据湖大数据处理分析平台

用户基于华为云MapReduce服务构建自己的数据湖数据处理分析平台,随着企业快速发展,集群规模和数据也急剧膨胀,用户迫切需要完全解耦计算和数据,让计算资源可以按需使用,集中统一管理不同存储中的元数据。

数据湖Catalog价值

  1. 多MRS集群元数据统一管理,避免数据孤岛;
  2. 自底向上逐层优化,性能更高;
  3. 多维度可靠性保驾护航,更可靠;
  4. 支持细粒度权限管控,更安全;

4.2 基于ModelArts构建数据湖AI开发平台

大数据是AI的基础,AI也是大数据的未来。数据湖可以很好的在经典机器学习场景和深度学习场景下服务用户:经验和数据靠个人、无管理;难以复用,难以监管;数据类型多,不同团队用的工具不同,随时间变化;无数据版本和分支管理;缺乏数据回流机制,需要数据湖具备能够统一“表”、“数据集”等概念,形成高层次的协作,需要数据湖具备能够实现元数据统一并借此进行数据版本和分支管理。

数据湖Catalog价值

  1. 提供多引擎SDK和REST API,方便用户集成;
  2. 支持多版本管理,包括数据版本、分支、事务等;
  3. 支持AI和大数据DAG血缘跟踪和分析;
  4. 统一元数据模型,助力异构数据源统一数据服务;

5 总结

数据湖Catalog极大增强MRS服务存算分离方面的能力,让MRS更聚焦算力,真正能按需创建、用完即释放,为用户节约了资源成本和运维管理成本;同时对ModelArts构建数据湖AI开发平台提供企业级经验和数据复用、异构数据源统一访问、多版本管理和DAG血缘管理提供了坚实的元数据管理基础。对于用户构建企业级数据湖大数据处理分析平台和数据湖AI开发平台,数据湖Catalog将会成为用户统一元数据管理平台首选。

同时作为一款新的重量级统一元数据管理服务,我们在引擎元数据领域还在持续学习和探索过程中,数据湖Catalog后面会持续从性能优化、可靠性、生态建设、数据价值挖掘多个角度进行优化和改进,包括统计分析、CBO以及扩展应用、AI融合高级特性等。

本文分享自华为云社区《统一元数据,华为云MRS 数据湖Catalog重磅推出!》,原文作者:ryanlunar。

点击关注,第一时间了解华为云新鲜技术~

统一元数据,数据湖Catalog让大数据存算分离不再是问题的更多相关文章

  1. 构建数据湖上低延迟数据 Pipeline 的实践

    T 摘要 · 云原生与数据湖是当今大数据领域最热的 2 个话题,本文着重从为什么传统数仓 无法满足业务需求? 为何需要建设数据湖?数据湖整体技术架构.Apache Hudi 存储模式与视图.如何解决冷 ...

  2. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

  3. 腾讯云 CHDFS — 云端大数据存算分离的基石

    随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同 ...

  4. 从 Hadoop 到云原生, 大数据平台如何做存算分离

    Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hado ...

  5. 《当大数据遇见网络:大数据与SDN》

    总体结构: <当大数据遇见网络:大数据与SDN> 摘要 大数据和SDN无论是对于学术界还是工业界来说都极具吸引力.传统上人们都是分别在最前沿工作中研究这两个重要的领域.然而一方面,SDN的 ...

  6. 分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势

    > 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向"大数据时代".而我们作为大数据的践行者,在这个"多智时代"如何才能跟上大数据的潮流, ...

  7. 大数据笔记05:大数据之Hadoop的HDFS(数据管理策略)

            HDFS中数据管理与容错 1.数据块的放置       每个数据块3个副本,就像上面的数据库A一样,这是因为数据在传输过程中任何一个节点都有可能出现故障(没有办法,廉价机器就是这样的) ...

  8. 大数据笔记01:大数据之Hadoop简介

    1. 背景 随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢?   单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...

  9. 【若泽大数据】玩转大数据之Spark零基础到实战

    https://www.bilibili.com/video/av29407581?p=1 若泽大数据官网 http://www.ruozedata.com/ tidb 系列三:有了sparkjdbc ...

  10. 大数据(1)---大数据及HDFS简述

    一.大数据简述 在互联技术飞速发展过程中,越来越多的人融入互联网.也就意味着各个平台的用户所产生的数据也越来越多,可以说是爆炸式的增长,以前传统的数据处理的技术已经无法胜任了.比如淘宝,每天的活跃用户 ...

随机推荐

  1. 如何使用Python将PDF转为图片

    将PDF转为图片能方便我们将文档内容上传至社交媒体平台进行分享.此外,转换为图片后,还可以对图像进行进一步的裁剪.调整大小或添加标记等操作. 用Python将PDF文件转JPG/ PNG图片可能是大家 ...

  2. 如何在云服务上快速拥有洛甲WAF(Web防火墙)

    如何在云服务上快速拥有洛甲WAF(Web防火墙) 洛甲WAF是基于openresty的web防火墙,通过配合后台保护您的数据安全,详情参考节点服务器 luojiawaf_lua(nginx+lua) ...

  3. 虹科案例 | 丝芙兰xDomo:全球美妆巨头商业智能新玩法

    全球美妆行业的佼佼者丝芙兰,其走向成功绝非仅依靠品牌知名度和营销手段.身为数据驱动型企业,2018年以来,丝芙兰就率先在行业内采用虹科提供的Domo商业智能进行数据分析和决策,并首先享受了运营优化.效 ...

  4. PTA乙级1039(C++)散列表解法

    题目 1039 到底买不买  小红想买些珠子做一串自己喜欢的珠串.卖珠子的摊主有很多串五颜六色的珠串,但是不肯把任何一串拆散了卖. 于是小红要你帮忙判断一下,某串珠子里是否包含了全部自己想要的珠子?如 ...

  5. win10如何美化cmd[添加新字体+配色方案+窗口栏样式]

    最近学mysql的时候用到很多cmd操作,但是cmd那默认界面实在是丑到没朋友.在网上收集了些资料最后把cmd美化成这样: 修改方法: 1.修改字体,新建一个txt文件,里面粘贴以下代码: Windo ...

  6. L2-029 特立独行的幸福

    #include <bits/stdc++.h> using namespace std; bool isyifu[10010]; bool isunhappy[10010]; bool ...

  7. CodeChef Starters 9 Division 3 (Rated) India Fights Corona

    原题链接 India Fights Corona 题意: 有\(n\)个城市,\(m\)条道路,其中有些城市自己有医院,所以可以在自己城市做核酸检测,那么花费就只有就医费用,而对于那些自己没有医院的城 ...

  8. TPshop商城的安装流程(windows)----超详细版

    提前准备 phpStudy下载:https://www.xp.cn/download.html 选择适合自己的版本下载 TPshop商城源文件下载链接:https://pan.baidu.com/s/ ...

  9. 通过.NET Core+Vue3 实现SignalR即时通讯功能

    .NET Core 和 Vue3 结合使用 SignalR 可以实现强大的实时通讯功能,允许实时双向通信.在这个示例中,我们将详细说明如何创建一个简单的聊天应用程序,演示如何使用 .NET Core ...

  10. windows 电脑 连接蓝牙耳机没有麦克风

    前言 windows 电脑 连接蓝牙耳机没有麦克风,明明已经显示麦克风图标,为什么录制不到声音 原因 电脑连蓝牙耳机有两个模式:hand free和stereo.handfree是可以语音通话的,但是 ...