MaxCompute湖仓一体介绍
简介:本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家
视频链接:数据智能实战营-北京站 专题回顾
正文:
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍
一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构,主要面向数据分析师,数据科学家以及大数据工程师来使用。主要应用的业务有Machine,非结构化数据分析,Ad-hoc/BI,Reporting和Learning等等。在整体架构中,DataWorks作为数据统一开发管理的平台,主要负责数据安全,开发IDE,任务调度和数据资产管理等综合工作,确保平台稳定运行。
如上图所示,在整体架构中,我们首先将数据湖集群和MaxCompute数仓集群的网络打通,然后将存储层的数据打通,确保智能Cache,冷热分层,存储优化和性能加速。在计算层,我么实现了DB级元数据的透视,避免数据孤岛。
DataWorks统一了各种数据资产,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产,而且还支持从数据源里抽取元素与信息。
在阿里内部,我们实现了一定程度的数据民主化。现如今,阿里集团内部所有的表,员工都能够看到表名称和的元数据信息,以及信息的安全等级。DataWorks作为中台:可以从列表中支持的数据源采集数据,纳入平台管控。
目前,统一的表级、字段级别数据血缘就现有的产品能力,只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。
在单一引擎内部,可以挂载多个hadoop集群,实现统一引擎的对接与管理。
DataWorks作为统一的数据开发平台,能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口,发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业,MaxCompute作业以及Hive作业等。
二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户,主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用,使用集群管控较严,无法短时间支撑大workload的创新业务。
基于以上需求,我们通过湖仓一体,将新业务平台与原有数据平台打通,即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型发布,大规模计算等能力,提升了团队的工作效率。
数禾公司通过引入MaxCompute作为计算引擎的数据中台,不但让数据湖计算自由流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率,而且降低了运维成本,起到了降本增效的作用。
上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储,我们通过DLF构建了元数据管理,数据血缘管理,数据权限管理。通过JindoFS+MC的方式,实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR,成功实现了智能数据构建与数据中台管理。
在未来,湖仓统一开发管理平台,能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据,也能支持非机构化数据。整个平台不但能同步联邦数据源,而且能统一元数据服务和元数据仓库。
本文为阿里云原创内容,未经允许不得转载。
MaxCompute湖仓一体介绍的更多相关文章
- 李呈祥:bilibili在湖仓一体查询加速上的实践与探索
导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践.主要内容包括: 什么是湖仓一体架构 哔哩哔哩目前的湖仓一体架构 湖仓一体架构下,数据的排序组织优化 湖仓一 ...
- 华为云FusionInsight湖仓一体解决方案的前世今生
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...
- 划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?
此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了. 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apa ...
- 华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地"存"与"算"的管理,加快推进了 ...
- MRS+LakeFormation:打造一站式湖仓,释放数据价值
摘要:华为LakeFormation是企业级的一站式湖仓构建服务. 本文分享自华为云社区<华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值]>,作者:break ...
- Apache Hudi在华米科技的应用-湖仓一体化改造
徐昱 Apache Hudi Contributor:华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技 ...
- 给王心凌打Call的,原来是神奇的智能湖仓
图文原创:谭婧(王凌老粉) "爷青回" "我们只是老了,并没有死." 谭老师作为老粉,热烈庆祝"甜心教主"王凌成为现象级翻红顶流. 只要地球 ...
- 使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
- 基于Hive进行数仓建设的资源元数据信息统计:Spark篇
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径 业务元数据,如血缘关系.业务的归属 过程元数据 ...
- JuiceFS 在数据湖存储架构上的探索
大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它 ...
随机推荐
- (二)Linux环境的学习环境的搭建
Xshell的安装和连接 由于我们打算通过Xshell进行命令的输入,就不再进行VMWARE-TOOLS的安装. 我们直接进行安装Xshell 并开始连接我们创建的创建的虚拟机 我们可以通过Xshel ...
- Android混淆后的bug日志通过mapping文件找对应行号
背景 由于项目中提测以及线上的apk都是经过混淆处理的,因此拿到日志后也无法正常查看崩溃日志的行号 这个原因是因为混淆了文件,输出的日志是对应不上源文件的,为了正确找到行号需要用到mapping.tx ...
- [noip2015]运输计划(LCA,二分)
运输计划[做题笔记] 挺难绷的... 题意 概括:给定 \(n\) 个节点的树和 \(n-1\) 条边的权值,现在可以将一条边的权值改为 \(0\) .找出一条边,使得将这条边权值赋为 \(0\) 时 ...
- getClass()方法----getName()方法
public class Test { public static void main(String[] args) { Person p = new Person(1,"刘德华" ...
- 【Oracle】Oracle表空间数据文件大小设置
Oracle数据文件默认大小上限是32G,如果要数据文件大于32G,需要在数据库创建之初就设置好. 表空间数据文件容量与DB_BLOCK_SIZE有关,在初始建库时,DB_BLOCK_SIZE要根据实 ...
- KingbaseES 使用百分比函数获取中位数
客户从Oracle数据库迁移至KingbaseES数据库,应用中使用MEDIAN函数来求中位数.KingbaseES数据库中没有MEDIAN函数,但可以通过百分比函数来实现相应的功能. MEDIAN ...
- KingbaseES 支持自定义异常
KingbaseES PLSQL 从 V8R6C4 版本开始,支持用户自定义异常.具体例子如下: create or replace procedure p_test() as error_numbe ...
- 【mybatis踩坑】mybatis获取类型为字符串String的参数自动加引号
今天写了一个简单的测试例子,用mybatis实现新建一个MySQL数据表 整体是JavaWeb项目,下面的代码是不完整的. 这是mapper 1 <?xml version="1.0& ...
- 学习Source Generators之输出生成的文件
上一篇文章学习了通过获取和解析swagger.json的内容,来生成API的请求响应类. 但是其中无法移动与编辑. 那么本文将介绍如何输出生成的文件. EmitCompilerGeneratedFil ...
- #珂朵莉树#CF896C Willem, Chtholly and Seniorious
题目 支持区间加,区间推平,询问区间第\(k\)小, 以及询问区间\(\sum{a_i^x}\pmod y\),数据随机 分析 由于数据随机,那么区间推平的概率为\(\frac{1}{4}\), 考虑 ...