MaxCompute湖仓一体介绍
简介:本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家
视频链接:数据智能实战营-北京站 专题回顾
正文:
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍
一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构,主要面向数据分析师,数据科学家以及大数据工程师来使用。主要应用的业务有Machine,非结构化数据分析,Ad-hoc/BI,Reporting和Learning等等。在整体架构中,DataWorks作为数据统一开发管理的平台,主要负责数据安全,开发IDE,任务调度和数据资产管理等综合工作,确保平台稳定运行。
如上图所示,在整体架构中,我们首先将数据湖集群和MaxCompute数仓集群的网络打通,然后将存储层的数据打通,确保智能Cache,冷热分层,存储优化和性能加速。在计算层,我么实现了DB级元数据的透视,避免数据孤岛。
DataWorks统一了各种数据资产,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产,而且还支持从数据源里抽取元素与信息。
在阿里内部,我们实现了一定程度的数据民主化。现如今,阿里集团内部所有的表,员工都能够看到表名称和的元数据信息,以及信息的安全等级。DataWorks作为中台:可以从列表中支持的数据源采集数据,纳入平台管控。
目前,统一的表级、字段级别数据血缘就现有的产品能力,只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。
在单一引擎内部,可以挂载多个hadoop集群,实现统一引擎的对接与管理。
DataWorks作为统一的数据开发平台,能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口,发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业,MaxCompute作业以及Hive作业等。
二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户,主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用,使用集群管控较严,无法短时间支撑大workload的创新业务。
基于以上需求,我们通过湖仓一体,将新业务平台与原有数据平台打通,即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型发布,大规模计算等能力,提升了团队的工作效率。
数禾公司通过引入MaxCompute作为计算引擎的数据中台,不但让数据湖计算自由流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率,而且降低了运维成本,起到了降本增效的作用。
上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储,我们通过DLF构建了元数据管理,数据血缘管理,数据权限管理。通过JindoFS+MC的方式,实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR,成功实现了智能数据构建与数据中台管理。
在未来,湖仓统一开发管理平台,能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据,也能支持非机构化数据。整个平台不但能同步联邦数据源,而且能统一元数据服务和元数据仓库。
本文为阿里云原创内容,未经允许不得转载。
MaxCompute湖仓一体介绍的更多相关文章
- 李呈祥:bilibili在湖仓一体查询加速上的实践与探索
导读: 本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践.主要内容包括: 什么是湖仓一体架构 哔哩哔哩目前的湖仓一体架构 湖仓一体架构下,数据的排序组织优化 湖仓一 ...
- 华为云FusionInsight湖仓一体解决方案的前世今生
摘要:华为云发布新一代智能数据湖华为云FusionInsight时再次提到了湖仓一体理念,那我们就来看看湖仓一体的来世今生. 伴随5G.大数据.AI.IoT的飞速发展,数据呈现大规模.多样性的极速增长 ...
- 划重点!AWS的湖仓一体使用哪种数据湖格式进行衔接?
此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift查询Hudi表,现在它终于来了. 现在您可以使用Amazon Redshift查询Amazon S3 数据湖中Apa ...
- 华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
摘要:对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地"存"与"算"的管理,加快推进了 ...
- MRS+LakeFormation:打造一站式湖仓,释放数据价值
摘要:华为LakeFormation是企业级的一站式湖仓构建服务. 本文分享自华为云社区<华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值]>,作者:break ...
- Apache Hudi在华米科技的应用-湖仓一体化改造
徐昱 Apache Hudi Contributor:华米高级大数据开发工程师 巨东东 华米大数据开发工程师 1. 应用背景及痛点介绍 华米科技是一家基于云的健康服务提供商,拥有全球领先的智能可穿戴技 ...
- 给王心凌打Call的,原来是神奇的智能湖仓
图文原创:谭婧(王凌老粉) "爷青回" "我们只是老了,并没有死." 谭老师作为老粉,热烈庆祝"甜心教主"王凌成为现象级翻红顶流. 只要地球 ...
- 使用 Iceberg on Kubernetes 打造新一代云原生数据湖
背景 大数据发展至今,按照 Google 2003年发布的<The Google File System>第一篇论文算起,已走过17个年头.可惜的是 Google 当时并没有开源其技术,& ...
- 基于Hive进行数仓建设的资源元数据信息统计:Spark篇
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径 业务元数据,如血缘关系.业务的归属 过程元数据 ...
- JuiceFS 在数据湖存储架构上的探索
大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它 ...
随机推荐
- 不想dto套dto可以这样写
之前都是要新建个dto文件的,偶然看到别人这样写,简单记录一下 @Data public class GdtDailyBalanceContent { List<GdtDailyBalanceR ...
- 纯前端实现 PNG 图片压缩 | UPNG.js
在线 Demo 体验地址 →: https://demos.sugarat.top/pages/png-compress/ 前言 最近在迭代自己的 图床 应用,由于使用时间的累计,存储空间占用越来越大 ...
- django(Ajax、自定义分页器、form组件)
一.Ajax 1 概述 异步提交局部刷新 例子:github注册 动态获取用户名实时的跟后端确认并实时展示到前端(局部刷新) 朝后端发送请求的方式 1.浏览器地址栏直接输入url回车 GET请求 2. ...
- 常用命令--复制-备份--cp--mv--scp--rsync
常用命令--复制-备份--cp--mv--scp--rsync cp cp命令用来将一个或多个源文件或者目录复制到指定的目的文件或目录.它可以将单个源文件复制成一个指定文件名的具体的文件或一个已经存在 ...
- 记录--Threejs-着色器实现一个水波纹
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 hree.js 是一个基于 WebGL 的 JavaScript 3D 库,用于创建和渲染 3D 图形场景. 一. 图像渲染过程 1.we ...
- pycharm 常见易错的PEP8规范
PEP8规范 ( Python Enhancement Proposal ) PEP 8: E231 missing whitespace after ','这个意思是逗号后面要有一个空格 PEP 8 ...
- Oracle与MySQL的差异和对比
Oracle与MySQL的差异和对比:配套hands-on参考脚本. 方便客户针对培训课件内容进行动手实践,加强理解. --------------------------------- -- 主题: ...
- KingbaseES V8R6 运维案例 -- sys_filenode.map故障案例
案例说明: 数据库下的sys_filenode.map文件被破坏,导致此数据库无法连接访问. Nail表(内核系统表)Relfilenode的存储机制: 经过研究发现,在数据目录里存在着pg_fi ...
- arch xfce启用自动挂载usb设备,自动访问usb设备,自动连接usb设备
1.安装gvfs sudo pacman -S gvfs GVFS(Gnome Virtual File System)是一个用于 GNOME 桌面环境的虚拟文件系统,它提供了一种统一的方式来访问和管 ...
- #动态规划#CF889E Mod Mod Mod
题目传送门 分析 这道题有一个很妙的地方就是将一段前缀整体一起做. 设 \(dp[i][j]\) 表示\(x\) 被前 \(i\) 个数取模后答案最大,并且 \(j\) 为取得此答案的最大值 最后再对 ...