EMR on ACK 全新发布,助力企业高效构建大数据平台
简介: 阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的方式,用户可以将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器应用管理的能力优势,用户只需要专注在大数据作业本身。用户可以便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100%兼容开源,性能优于开源。
一、背景介绍
技术趋势
- 存储与计算分离,向云原生演进
- 在线业务、AI、大数据统一接入 ACK 集群,错峰调度,离线在线混部,提升机器利用率
- 统一运维入口,统一运维工具链,统一监控体系
- 以集群为中心->以作业为中心
- 多版本支持,例如可以同时跑 Spark2.x、Spark3.x
云原生面临挑战
- 计算与存储分离:如何构建以对象存储 OSS 为底座的 HCFS 文件系统
• 需要完全兼容现有的 HDFS
• 性能对标 HDFS,成本降低
- 计算引擎 shuffle 数据存算分离:如何解决 ACK 混合异构机型
• 异构机型没有本地盘
• 社区[ Spark-25299]讨论,支持 Spark 动态资源,成为业界共识
- ACK 调度能力:如何解决调度性能瓶颈
• 性能对标 Yarn
• 多级队列管理
- 错峰调度
• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷
EMR on ACK 优势
- Remote Shuffle Service 提供中间 shuffle 数据的存储计算分离方案
• 可以使计算节点无需本地盘和云盘
• 支持打开 Spark 动态资源功能,Spark-25299 终极方案
- JindoFS 针对 OSS 存储提供湖加速解决方案
• Block 模式1TB TPCDS 场景下有15%以上的性能提升
- 调度层面支持 Scheduler Framework V2
• 调度性能比社区提升3x以上
• 提供多级队列管理
- 引擎能力增强
• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有3x性能提升
• Hudi、DeltaLake 比社区功能性能增强
- 完整的错峰调度方案
二、EMR 容器化架构
EMR on ACK 架构
- 轻量化管控,对接已有数据平台
- 通过数据开发集群/调度平台提交到不同的执行平台
- 错峰调度,根据业务高峰低峰策略调整
- 云原生数据湖架构,ACK 弹性扩缩容能力强
- ACK 管理异构机型集群,灵活性好
三、产品介绍
新建集群
- 地域:目前开放杭州、上海、北京、深圳等地域(持续开放中)
- 集群类型:Spark 、Shuffle Service、Presto
- Spark — 通用的分布式大数据处理引擎
• 提供了 ETL、离线批处理、数据建模等能力
- Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务
• 解决 Kubernetes 下对本地盘的依赖问题
• 解决大规模计算集群的网络和磁盘的 IO 瓶颈
• 支持计算与存储分离的架构,可服务多个 EMR 集群
- Presto — 基于内存的分布式 SQL 交互式查询引擎
• 支持多种数据源
• 适合 PB 级海量数据的复杂分析,以及跨数据源的查询
- 组件版本:Spark (3.1.1)
- 专属节点:
• 现有 ACK 集群,share 部分节点给到 EMR
• 新建 ACK 集群,可选择整个集群为专属节点
- OSS Bucket:用于存储作业、日志、jar 包等信息
集群管理
- 集群 ID/名称:点击进入作业管理
- 集群状态:检测集群是否可用
- 所属 ACK 集群:可关联到现有 ACK 集群
- 配置:Spark 作业配置
- 释放:释放空间
原文链接
本文为阿里云原创内容,未经允许不得转载。
EMR on ACK 全新发布,助力企业高效构建大数据平台的更多相关文章
- 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...
- 华为视频编辑服务(Video Editor Kit),助力开发者高效构建应用视频编辑能力
视频编辑服务(Video Editor Kit)是华为开放给开发者快速构建视频编辑能力的服务,提供视频导入.编辑处理.特效渲染.视频导出.媒体资源管理等一站式视频处理能力.视频编辑服务为全球开发者提供 ...
- RDIFramework.NET Web版报表管理-助力企业高效智能图表
功能描述 在RDIFramework.NET Web版本中全新的报表管理功能模块,非常实用的功能,重量级推荐.主要用于对日常常用的报表做定制展示.可以自动发布到模块(就可授权给指定资源访问),在报表定 ...
- 蚂蚁金服mPaaS 3.0发布 助力客户智能化构建超级App生态
1月4日,蚂蚁金融科技宣布蚂蚁金服移动开发平台mPaaS(mobile Platform-as-a-Service)升级到3.0版本,“新版本以智能技术助力客户构建自己的超级 App,企业可以拥有等同 ...
- 号外!号外!这个敏捷高效的大数据bi看板可以免费使用啦!
随着信息革命的深入推进,数据已经成为国家基础性战略资源,各个行业开始重视数据分析,企业不同,数据分析需求当然不一样,如销售行业需要对商品进行销售分析:网站运营需要进行用户.渠道.流量等信息分析:制造行 ...
- select2,利用ajax高效查询大数据列表(可搜索、可分页)
二.导入css和js到网站上 1.使用CDN,节省自己网站的流量 ? 1 2 <link href="https://cdnjs.cloudflare.com/ajax/libs/se ...
- 【2020】DBus,一个更能满足企业需求的大数据采集平台
功能远超Sqoop.DataX.Flume.Logatash.Filebeat等采集工具 注:由于文章篇幅有限,完整文档可扫免费获取 深知其他组件的局限性,才能彰显DBus的优越感 当前有很多数据采集 ...
- 奇点云 x 阿里云 | 联合发布综合体数字化转型与数据创新解决方案
2019年7月25日下午,在阿里云峰会上海站,奇点云入选阿里云首批联合解决方案合作伙伴,并联合发布了“综合体数字化转型与数据创新解决方案”,共同探索综合体的智能服务. 关于综合体的数字化转型,奇点云联 ...
- 华为云FusionInsight MRS:助力企业构建“一企一湖,一城一湖”
摘要:华为云FusionInsight MRS新一代的数据湖,让大数据越用越快.越用越易.越用越稳.越用越省!让数据价值近在眼前! 10月30日,以"携手共赢·数创未来"为主题的第 ...
- 腾讯云EMR大数据实时OLAP分析案例解析
OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...
随机推荐
- 小米Linux 运维工程师面试真题
小米Linux 运维工程师面试真题 首先我们来看下小米 Linux 运维工程师招聘岗位要求: [岗位定义]运维工程师 [岗位薪资]10K-24K [基本要求]北京 / 经验 3-5 年 / 本科及以上 ...
- 三维模型OBJ格式轻量化的跨平台兼容性问题分析
三维模型OBJ格式轻量化的跨平台兼容性问题分析 三维模型的OBJ格式轻量化在跨平台兼容性方面具有重要意义,可以确保模型在不同平台和设备上的正确加载和渲染.本文将分析OBJ格式轻量化的跨平台兼容性技术, ...
- .NET分布式Orleans - 7 - Streaming
概念 在Orleans中,Streaming是一组API和功能集,它提供了一种构建.发布和消费数据流的方式. 这些流可以是任何类型的数据,从简单的消息到复杂的事件或数据记录.Streaming API ...
- wordpress自建博客站,在页脚添加网站总运行时间
wordpress自建博客站,在页脚添加网站总运行时间 笔者使用的主题是 GeneratePress 版本:3.1.3 <span id="momk" style=" ...
- DNS的各种记录类型的应用解析
可能很多人平时工作中不会遇到DNS配置相关的问题, 但如果偶尔遇到不同类型DNS记录的配置, 在没有搞清楚它们都是干啥的情况下, 会眼花缭乱, 还记得很多年前实验室配置DNS不太对导致只能访问www. ...
- #线段树合并#洛谷 3224 [HNOI2012]永无乡
题目 分析 和主席树不同的是,线段树合并后原树的信息不会保留, 这样就保证空间和常数都比较小,这题比较裸,直接上代码 代码 #include <cstdio> #include <c ...
- 使用 rollup 打包可按需加载的 NPM 包
安装 rollup npm install rollup --save-dev 配置文件 rollup.config.js export default { input: 'src/index.js' ...
- Windows系统编译libhv带SSL,开启WITH_OPENSSL
需要开发一个https的服务,使用libhv来做,需要重新编译libhv,需要开启 WITH_OPENSSL,前面编译一直很顺利,但是打开VS生成动态库的时候,报错,找不到ssl相关的文件,看了官方的 ...
- 什么是MurmurHash
MurmurHash简介 MurmurHash是一种非加密散列函数,名称来自两个基本操作,乘法(MU)和旋转(R).与加密散列函数不同,它不是专门设计为难以被对手逆转,因此不适用于加密目的.在2018 ...
- redis 简单整理——哨兵简单介绍[二十八]
前言 简单介绍一下哨兵模式. 正文 Redis的主从复制模式下,一旦主节点由于故障不能提供服务,需要人 工将从节点晋升为主节点,同时还要通知应用方更新主节点地址,对于很多 应用场景这种故障处理的方式是 ...