摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

本文分享自华为云社区《华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值》,作者:breakDawn。

1 背景

1.1 数仓和数据湖的概念

数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。

  • 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
  • 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。

1.2 传统湖仓技术的挑战

以上技术在多年的实践中,逐步衍生出了以下的一些挑战:

  • 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
  • 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
  • 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。

上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享,避免其中额外的ETL成本以及降低链路的延时。

1.3 湖仓一体架构的出现

为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。

2 华为lakeFormation服务关键能力

华为LakeFormation是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎(Hive、Spark等)及大数据云服务(MRS、DLI等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:

  • 丰富的元数据和数据权限管理

华为lakeformation支持Catalog和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方ETL进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。

  • 生态开放

华为LakeFormation兼容社区接口、支持平滑对接和迁移,提供了兼容Hive/Spark/Flink/Trino社区的元数据接口,支持计算引擎平滑对接,同时兼容Ranger的权限接口,支持一次授权,统一生效。

  • 大规模、高可靠

华为LakeFormation支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多AZ的容灾能力,可为业务持续性提供稳定保障,且采用Serverless架构,开箱即用,简单易上手。

3 华为云MRS支持lakeformation创造数据价值

3.1 Lakeformation给MRS带来的场景价值

以数智融合场景为例,当大数据用户在MRS中创建了表T1时, 数仓用户可通过lakeformation观察到表T1的元数据,并通过DWS写入正确的数据内容。

当AI用户希望通过华为ModelArts读取T1数据时,可借助lakeformation查看T1表,再进行T1数据的获取,整个过程中减少了MRS和其他产品联合协同运作时的复杂ETL操作,大大提升了数据使用的效率。

另外,当企业用户的安全管理员希望对不同MRS集群中同一业务类型的元数据进行ranger权限限制时,可通过lakeformation按下图所示的步骤进行操作,整个过程一次授权,统一生效,充分提高了管理效率,简化管理流程。

3.2 MRS服务对接lakeformation能力展示

华为MRS用户可基于最新上线的LakeFormation数据连接能力,实现lakeformation实例的创建和授权。

在MRS控制台的数据连接页面,支持创建如下图所示的lakeformation数据连接:

建立完成lakeformation数据连接后,即可在MRS集群概览中,配置该数据连接,实现MRS和lakeformation之间的数据关联。

后续再根据产品资料指导完成MRS集群组件相关配置后, 即可正常使用LakeFormation统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。

当用户在lakeformation中针对MRS集群的catalog建立了department表后

其他用户可在对应MRS集群的hive客户端中观察这个department表的元数据。

反过来,用户通过MRS的hive客户端创建一个employe表后,可以在lakeformation中看到该元数据信息。

另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到MRS的权限管理组件中。

4 总结

对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

点击关注,第一时间了解华为云新鲜技术~

华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值的更多相关文章

  1. 释放数据价值:DAYU数据运营新能力解读

    摘要:从比特到信息,这说的其实就是企业数字化转型,让数据的价值充分发挥出来,变成信息. 今天,企业对数据越来越重视,数据已经成为了企业新型的资产,甚至是核心资产,最近流传一句非常有意思的话:从比特到信 ...

  2. 华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

    背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向. 华为云早在2020年就开始着手相关技术的预研,并落地在华为云 Fusio ...

  3. 华为云FusionInsight湖仓一体解决方案的前世今生

    摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...

  4. 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”

    摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...

  5. 华为云.NET Core支持情况调查

    各大公有云都提供了开发者开发的SDK,今天我们来看看华为云对.NET Core的支持情况怎么样? .NET SDK地址 https://developer.huaweicloud.com/sdk#.N ...

  6. “3+3”看华为云FusionInsight如何引领“数据新基建”持续发展

    摘要:一个统一的现代化的数据基建需要三类架构来实践三种不同的应用场景. 近期,美国知名科技企业风投机构A16Z总结出一套通用的技术架构服务,分为以下三种场景. 一.数据基建架构全景 数据流向显示,左侧 ...

  7. 华为云ModelArts图深度学习,学习知识还能考取微认证

    作为人工智能最前沿的技术之一,图深度学习被公认是人工智能认识世界实现因果推理的关键,也是深度学习未来发展的方向.但深度学习对图数据模型的支持性差一直是众多研究者难以攻克的难点,因此图深度学习在实际生产 ...

  8. 华为云WeLink:智能工作空间,联接无限想象

    [中国,上海,2019年9月19日] 在HUAWEI CONNECT 2019期间,华为办公应用装备部部长王俊先生代表华为云介绍WeLink--企业专属的智能工作空间.WeLink源于华为数字化办公实 ...

  9. 基于华为云语音通知 VoiceCall 的应用上线记录并分享.NET CORE DEMO

    最近公司要上线语音通知功能,需求如下: 场景:发生报警时,自动通知到指定的手机号,同时,提供几个按键选项,例如,语音通知如下: “您好,XXX小区发生XXXX报警,按1确认报警,按2忽略报警,按3屏蔽 ...

  10. Kubernetes增强型调度器Volcano算法分析【华为云技术分享】

    [摘要] Volcano 是基于 Kubernetes 的批处理系统,源自于华为云开源出来的.Volcano 方便 AI.大数据.基因.渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎,高性能异 ...

随机推荐

  1. JS学习笔记 (四) 数组进阶

    1.基本知识 1.数组是值的有序集合.每个值叫做一个元素,而每个元素在数组中的位置称为索引,以数字表示,以0开始. 2.数组是无类型的.数组元素可以是任意类型,并且同一个数组中的不同元素也可能有不同的 ...

  2. cordon节点,drain驱逐节点,delete 节点

    目录 一.系统环境 二.前言 三.cordon节点 3.1 cordon节点概览 3.2 cordon节点 3.3 uncordon节点 四.drain节点 4.1 drain节点概览 4.2 dra ...

  3. Substring 在BCL和CLR里面搞了啥

    楔子 还是做点事情,不要那么散漫. 本文以简单的Substring(int startindex,int Length)函数为例,来递进下它在托管和非托管的一些行为. 以下均为个人理解,如有疏漏请指正 ...

  4. ArchLinux安装手册(2022-10-01)

    准备工作 镜像下载:北京外国语大学镜像 使用ventoy做启动盘: (1) ventoy下载:github下载地址 (2) 解压运行下载好的ventoy,设备选择准备好的U盘(会清空),然后选择安装即 ...

  5. nsenter命令简介

    nsenter命令是一个可以在指定进程的命令空间下运行指定程序的命令.它位于util-linux包中. 用途 一个最典型的用途就是进入容器的网络命令空间.相当多的容器为了轻量级,是不包含较为基础的命令 ...

  6. 数据结构篇——KMP算法

    数据结构篇--KMP算法 本次我们介绍数据结构中的KMP算法,我们会从下面几个角度来介绍: 问题介绍 暴力求解 知识补充 Next示例 Next代码 匹配示例 匹配代码 完整代码 问题介绍 首先我们先 ...

  7. jquery 操作样式

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  8. K8s安装乐维5.0应用部署文档

    乐维产品包具体打包为4个镜像包,分别为:mysql5.7.36.tar.zabbix_server.tar.itops_v1_4_x86_64.tar.bpm0.1.tar,对应的配置文件分别为:da ...

  9. Kagol:2022年最值得推荐的前端开源文章

    大家好,我是 Kagol,Vue DevUI 作者,从2020年开始一直专注于前端开源组件库的建设,在前端开源组件库.开源社区运营方面积累了一些经验,2020年主要的创作也是围绕前端组件库和开源两个主 ...

  10. Jmeter——循环控制器中实现Counter计数器的次数重置

    近期在使用Jmeter编写个辅助测试的脚本,用到了多个Loop Controller和Counter. 当时想的思路就是三个可变的数量值,使用循环实现:但第三个可变值的数量次数,是基于第二次循环中得到 ...