简介: 阿里云在最新发布的 The Forrester Wave: Cloud Data Warehouse, Q1 2021 全球云数据仓库技术评比中进入卓越表现者象限,成为国内唯一入选厂商。本文针对 Forrester 的报告,结合阿里云的以 MaxCompute 为核心的云数仓产品,做一个详细的技术解读。

概述:

2021年3月25日,全球权威分析机构 Forrester 发布 《The Forrester Wave: Cloud Data Warehouse, Q1 2021》研究报告,阿里云凭借产品现有能力、产品战略、市场表现三项优势,进入 Forrester Wave 2021 Q1 云数据仓库卓越表现者象限,成为入选此次评测的唯一中国厂商。

本次 Forrester 针对入选的 13 家国际最重要的云数据仓库服务商(见下表), 从产品、战略、和市场表现三个维度,26个指标 60 多项评估细则进行了研究、分析和评分。最终报告显示了每个提供商在每项的评比分数,帮助企业架构专业人员根据他们的需求选择正确的厂商。作为读者,也能从 Forrester 的这些评测项中理解、学习现代云数据仓库的定义、应具备能力以及未来的发展趋势。

下面我们就针对 Forrester 的报告内容,结合阿里云 MaxCompute、DataWorks、AnalyticDB 几款云数仓产品,对现代云数仓做一下全面的技术解读。

技术解读:

现代云数仓的内涵:Forrester 认为现在云数仓需要具备的几个特性:

  • 极致弹性:在分钟级别内提供任意规模,能够自动优化查询
  • 存算分离:按需独立扩展计算和存储等资源(存算分离)并能无感知自动升级。
  • 为了满足对更集中、实时和自助式分析日益增长的需求,云数仓供应商将继续专注于与数据湖和对象存储的原生集成。
  • 通过自助服务,简化大型复杂仓库的访问和管理。
  • 能提供并行处理、压缩、分区、索引、查询优化和动态资源供应方面的高级功能。
  • 最常见的云数仓应用场景包括客户360°分析、基于AI/机器学习 ML 的分析、垂直领域和实时分析的场景。

Forrester 评测领先项(得5/满分5分)

给客户带来的价值

  1. 数据湖集成(Data Lake Integration)
  2. 数据类型(Data Types)
  3. 数据集成(Data Ingestion / Loading)

客户将数据湖(Hadoop、云对象存储 OSS)的灵活性、生态丰富与云数据仓库的企业级能力进行融合,可以通过 MaxCompute 湖仓一体方案,DataWorks 数据集成以及对丰富数据类型的支持,并通过 DataWorks 构建数据湖和数据仓库融合的数据开发、管理和数据治理平台。

  1. 性能(Performance Reference)
  2. 扩展性(Scalability Feature)

客户能享受以下 MaxCompute 的 Share Everything 的架构设计带来的如下好处:

  1. 开箱即用的服务:5 分钟开通云数仓服务并能执行第一条 SQL 任务
  2. 灵活的计费模式:支持开通后可以按照单条 SQL 计费的按量付费模式,不用资源不花钱,不怕开通了还继续收费
  3. 存算分离 + 无限扩展:可以分别对计算和存储进行扩缩容
  4. 更好的资源利用:多租户架构带来更好的资源利用,通过降低成本将技术红利分享给客户
  1. 数据安全(Data Security)

数据安全无疑是现在企业数据应用的重中之重。MaxCompute 支持多租户的使用场景,通过阿里云账号认证体系对于用户的每一个 HTTP 请求都会进行签名认证,针对不同的用户数据进行数据存储隔离,用户数据被离散存储在分布式文件系统中。可以同时满足多用户协同、数据共享、数据保密和安全的需要,做到真正的多租户资源隔离。同时在网络隔离,鉴权认证,数据安全,传输、存储加密,日志审计等。详情参见安全白皮书

  1. Support(售后服务)
  2. Subcription(订阅模式)

Forrester 从客户得到认证:证实阿里云拥有一个经过验证的全球技术服务和支持团队,可以满足当前和未来的增长需要,同时拥有最多的资源和专业知识来处理复杂的全球和本土云数仓的实施。客户对阿里云云数仓的技术支持非常满意。

同时,MaxCompute 提供 Pay-as-you-go 计费模式,只对资源(存储、服务器和服务)的使用收费。支持按存储、大小、查询和用户数量粒度定价。可以分别为计算和存储定价。Forrester 从客户侧证实阿里云有最好的计费模式和最好的性价比。

以下从技术角度阐述为什么阿里云数仓产品能够支撑上面的满分项:

1. 架构设计:

阿里云数据仓库 MaxCompute 从设计之初采用了“Share Everything”的架构设计。按 Forrester 的说法,这是一个具有前瞻性(future-proof) 的技术架构。它引领了云数仓架构的趋势,并提供了最佳的客户灵活性和开箱即用的解决方案。同时支持 SQL、机器学习\深度学习、图计算等多种计算模式。

除了支持第一方的计算模式外,一个关键区别是 MaxCompute 有一个开放的设计,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 发展出了湖仓一体的架构设计,通过湖仓一体 MaxCompute 无缝集成云对象存储和 Hadoop 生态。这些帮助我们在 Forrester 技术评比中,在性能、扩展性、数据湖集成 3 项取得最高分(5分),达到世界领先水平。

  • 在性能项的评比中,MaxCompute 支撑了相比其它厂商更高每天作业总数
  • 在扩展性的评比中,MaxCompute 提供最好的可伸缩性特性,包括:

a) 可以对于任意规模的计算或存储进行接近无限的扩展,且不需要中断或停机支持

b) 可以独立、自动地扩展存储和计算。可支持 EB 级别以上的数据规模。

  • 在数据湖集成项评比中:通过湖仓一体架构,无缝集成对象存储(OSS)湖,以及 Hadoop 生态,并通过 DataWorks 提供统一的数据开发、管理、治理平台。

2. 实时性:

  • 阿里云数仓通过 DataWorks 数据集成功能,支持三种实时数据集成方式:数据集成流式数据导入、对接 datachub、Kafka 等发布-订阅子系统、 CDC 方式导入。
  • 可以流式地将数据输入到 MaxCompute 或 AnalyticsDB 中进行查询。(或通过Flink 处理的实时 BI 场景)
  • 支持数据服务场景和在线机器学习(Alink,流式算法包以及深度学习框架 TensorFlow)

3.高性能存储

  • AliORC:MaxCompute 采用与开源 ORC 兼容的列式存储格式 AliORC,比开源 ORC 读性能快 50%,同时支持 MaxCompute、机器学习引擎 PAI等。 MaxCompute 团队也是开源 ORC 社区最大的贡献者
  • 自动存储分层,通过算法支撑的 4 级自动存储分级,提供更好的读写性能

4.企业级的安全性:

MaxCompute 和 DataWorks 数据安全卫士可以发现和识别敏感数据,并支持静态数据加密,支持tokenization,动态和静态数据 Masking;通过数据质量和 Logview 检查数据质量和漏洞评估,利用阿里云 ActionTrail 提供审计功能。同时数仓内部支持自主访问控制,强制访问控制 (labelSecurity),提供项目、表、行和列级的访问控制。在合规方面支持全球主流的安全标准:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。详细名单在在白皮书中均有描述。

同时,MaxCompute 除了传统的通过认证和授权的方式共享数据外,我们还观察到了隐私保护的数据共享,甚至是在不受信任的群体之间共享的趋势。通常我们将这种共享需求称为“数据可用不可见”。现在阿里云也正在投资这个领域以及包括基于差分隐私的计算和联合计算在内的技术。

在本次 Forrester 技术评比中:云数仓 MaxCompute 和 DataWorks 的安全能力以及技术前瞻性,取得了最高分(5分),达到世界领先。

5.统一的数据开发、管理治理平台 DataWorks:

MaxCompute 有一个统一的数据部署、治理和管理平台 DataWorks。它支持不同工作负载的数据集成、元数据开发。我们的数据管理可以进一步编排不同的工作负载。例如,客户可以从数据集成、数据清理、特征工程、模型训练、模型服务等方面构建完整的大数据和 AI 通道。

关于云数仓的发展趋势:

随着 IoT 和 5G 技术的不断成熟,设备产生的数据将远超过与人相关的行为数据,同时越来越多的企业也将沉睡的数据湖中的数据唤醒,越来越多的角色也加入到数据分析、机器学习的领域中。这为云数据平台带来新的挑战,云数仓需要:

  1. 提高平台自服务能力,高度自动化的运维和管理,降低数据仓库、机器学习以及深度学习的使用门槛
  2. 支持多方数据共享的同时保护数据隐私,数据可用不可见
  3. 与数据湖的深度集成,统一的开发平台、数据资产管理

总结:

最后引用 Forrester 报告对阿里云数据仓库的总结:阿里云数仓服务提供广泛的基础设施、平台和分析服务,包括 MaxCompute、AnalyticDB 和 DataWorks 服务,以支持各种大规模数据仓库客户案例。虽然阿里云数据仓库服务大部分部署在中国,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16个国家和地区提供服务,客户涉及金融、互联网、生物医药、能源、交通和媒体行业。阿里云的 MaxCompute、AnalyticDB 和 DataWorks提供实时和 EB 级的能力,以支持任何数据仓库的需求。

最后是来自客户对阿里云数仓产品的评价:

阿里云数仓供多种计算模型、机器学习能力、服务区域、技术支持、商业价值、工具和高端可扩展性。让客户在最常用的场景包括 BI 加速、基于AI/ML 的分析、数据仓库现代化、数据科学以及实时和风险分析领域获得最佳的应用体验。

原文链接

本文为阿里云原创内容,未经允许不得转载。

深入解读:获得 2021 Forrester 全球云数仓卓越表现者的阿里云数据仓库的更多相关文章

  1. ByteHouse云数仓版查询性能优化和MySQL生态完善

    ByteHouse云数仓版是字节跳动数据平台团队在复用开源 ClickHouse runtime 的基础上,基于云原生架构重构设计,并新增和优化了大量功能.在字节内部,ByteHouse被广泛用于各类 ...

  2. 云服务器ECS优惠券 阿里云 ecs 5折优惠码 阿里云5折优惠码 阿里云5折推荐码 阿里云优惠码 阿里云的5折优惠券 阿里云服务器购买优惠码 服务器购买优惠码

    阿里云代金券 | 阿里云优惠券云服务器ECS,就是阿里云服务器,大家一定要清楚.云服务器ECS优惠券官方领取优惠页面:https://promotion.aliyun.com/ntms/act/amb ...

  3. 云计算之路-阿里云上:愚人节被阿里云OCS愚

    今天是愚人节,而我们却被阿里云OCS愚,很多地方的缓存一直不过期,造成很多页面中的数据一直不更新.这篇博文将向您分享我们这两天遇到的OCS问题. 阿里云OCS(Open Cache Service)是 ...

  4. 阿里云短信验证_基于阿里云OpenAPI实现

    阿里云短信服务 背景简介: 短信验证以及短信通知,目前已经应用的非常广泛,最近因项目需要,需要将原来的短信接口换成阿里云的的短信服务,原项目集成的短信服务能够实现短信的发送以及短信的验证整个过程,简单 ...

  5. 关于STM32F103+ESP8266+阿里云过程之环境搭建和阿里云数据格式设置及注意点(一)

    计划实现功能:将STM32F103采集到的温湿度,PM2.5等数值,通过UART与ESP8266通讯,使得ESP8266对外仅充当串口功能的黑盒.ESP8266通过MTQQ发布订阅数据,设备上传.接收 ...

  6. 阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告 解读

    前言近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型 ...

  7. 多盟、Testin云测、K9test,助阵阿里云1218 移动开发者狂欢

    经过双十一.双十二全民剁手狂欢后,阿里巴巴旗下的云计算业务,也为IT程序员们打造一场独特的盛宴. 阿里云计算12月18日对旗下主力云计算产品进行打折促销,云服务商.风投机构等都将参与到这场狂欢中.“我 ...

  8. 阿里云服务器 && 如何window链接到阿里云服务器

    现在的时间是:2016年10月11日 1:购买学生机 阿里云手机app上  ->  学生专区  ->  购买: 需要注意的是:如果没有自己需要的系统,比如没有linux操作系统的ecs,那 ...

  9. 记一次阿里云ECS服务器图片资源迁移至 阿里云 oss

    系统用户上传的图片资源放在ECS服务器,图片要做cdn加速,图片量越来越大(第一年200G,还在用户再增加图片量疯狂增长)备份是个问题. 决定迁移至 oss.前端直接上传oss 后台做签名,回调入库图 ...

  10. 如何通过阿里云APP进行域名备案?阿里云备案流程需要多久?

    如何通过阿里云APP进行域名备案? 1.准备备案材料(很多初次使用阿里云APP进行备案的同学会问备案需要准备哪些资料,不二版本下面就给大家一一列举出来) 个人备案需要材料: ⑴<用户网站备案授权 ...

随机推荐

  1. grep 第四天

    grep 第四天 1 使用grep 取 passwd 显示行数 grep -c '' /etc/passwd [root@master ~]# grep -c '' /etc/passwd 135 2 ...

  2. 5G+实时云渲染,让元宇宙应用触手可及

    从2021年初被称为"元宇宙第一股"的罗布乐思(Roblox)正式在纽交所上市,到2021年10月Facebook更名为"Meta"宣布进军元宇宙,再到如今各大 ...

  3. linux磁盘管理、网络

    一 磁盘管理 1 查看磁盘空间的占用 df -h 显示人类易读的方式 linux下磁盘命名格式 /dev/sd[a-z] 2 查看目录的占用空间 du -s 查看目录 -h 显示人类易读的方式 du ...

  4. 为什么说HTTPS比HTTP安全? HTTPS是如何保证安全的?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 一.安全特性 在上篇文章中,我们了解到HTTP在通信过程中,存在以下问题: 通信使用明文(不加密),内容可能被窃听 不验证通信方的身份,因 ...

  5. 记录--组件库的 Table 组件表头表体是如何实现同步滚动?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 在使用 Vue 3 组件库 Naive UI 的数据表格组件 DataTable 时碰到的问题,NaiveUI 的数据表格组件 Da ...

  6. 记录--uniapp 使用原生子窗体进行视频聊天

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 现在 uniapp 开发的实时音视频聊天类的 APP 大部分都要在 nvue 页面上进行开发.虽然 nvue 与 vue 的区别不是很大, ...

  7. Dll堆栈问题(Dll的静态变量与全局变量、vs的MT与MD)

    问题引入:dll有一个导出函数,函数参数是string&,string在函数内部被=赋值.在exe动态加载此dll,调用此导出函数后,会崩溃. 原因:如果任何STL类的实现中使用了静态变量(我 ...

  8. Linux编写Shell脚本获取指定目录下所有文件并处理

    Linux编写Shell脚本获取指定目录下所有文件进行处理并保存到新目录 #!/bin/bash app_name="shell" path="/dir" #原 ...

  9. KingbaseES V8R6 sys_squeeze 使用

    sys_squeeze介绍 sys_squeeze是KingbaseES的一个扩展插件,该组件将提供人工调用命令实现对表dead tuple的清理工作.该组件在清理表空间的过程中,不会全程加排他锁,能 ...

  10. Scala 类和对象与Java的对比

    一.包 1 package com{ 2 3 import com.atguigu.scala.Inner 4 5 // 在外层包中定义单例对象 6 object Outer{ 7 var out: ...