阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播第六期

主题：EMR spark on ACK 产品演示及最佳实践

讲师：石磊，阿里云 EMR 团队技术专家

内容框架：

云原生化挑战及阿里实践
Spark 容器化方案
产品介绍和演示

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

如何构建以对象存储为底座的 HCFS 文件系统

完全兼容现有的 HDFS
性能对标 HDFS，成本降低

shuffle 存算分离

如何解决 ACK 混合异构机型

异构机型没有本地盘
社区 [Spark-25299] 讨论，支持 Spark 动态资源，成为业界共识

缓存方案

如何有效支持跨机房、跨专线混合云

需要在容器内支持缓存系统

ACK 调度

如何解决调度性能瓶颈

性能对标 Yarn
多级队列管理

其他

错峰调度
Yarnon ACK 节点资源相互感知

阿里实践 - EMR on ACK

整体方案介绍

通过数据开发集群/调度平台提交到不同的执行平台
错峰调度，根据业务高峰低峰策略调整
云原生数据湖架构，ACK 弹性扩缩容能力强
通过专线，云上云下混合调度
ACK 管理异构机型集群，灵活性好

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

RSS 使得 Spark 作业不需要 Executor Pod 挂载云盘。挂载云盘非常不利于扩展性和大规模的生产实践。
云盘的大小无法事前确定，大了浪费空间，小了 Shuffle 会失败。RSS 专门为存储计算分离场景设计。
Executor 将 shuffle 数据写入了 RSS 系统，RSS 系统来负责管理 shuffle 数据，Executor 空闲后即可以回收。[SPARK-25299]
可以完美支持动态资源，避免数据倾斜的长尾任务拖住 Executor 资源不能释放。

2、RSS 性能如何，成本如何，扩展性如何？

RSS 对于 shuffle 有很深的优化，专门为存储与计算分离场景、K8s 弹性场景而设计。
针对 Shufflefetch 阶段，可以将 reduce 阶段的随机读变为顺序读，大大提升了作业的稳定性和性能。
可以直接利用原有 K8s 集群中的磁盘进行部署，不需要加多余的云盘来进行 shuffle。性价比非常高，部署方式灵活。

Spark Shuffle

产生 numMapper * numReducer 个 block
顺序写、随机读
写时 Spill
单副本，丢数据需 stage 重算

EMR Remote Shuffle Service

追加写、顺序读
无写时 Spill
两副本；副本复制到内存后即完成
副本之间通过内网备份，无需公网带宽

RSS TeraSort Benchmark

备注说明：以10T Terasort 为例，shuffle 量压缩后大约 5.6T。可以看出该量级的作业在 RSS 场景下，由于 shuffle read 变为顺序读，性能会有大幅提升。

Spark on ECI 效果

Summary

原文链接
本文为阿里云原创内容，未经允许不得转载。

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化 ...
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府.医疗.教育.企业等各个行业.大家从文章8天扩容100万核,腾讯会议是如何做到的?都知道腾讯会议背后的计 ...
DataPipeline在大数据平台的数据流实践
文 | 吕鹏 DataPipeline架构师进入大数据时代,实时作业有着越来越重要的地位.本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践. 一.企业级数据面临的主要 ...
"大中台、小前台”新架构下，阿里大数据接下来怎么玩？ (2016-01-05 11:39:50)
"大中台.小前台”新架构下,阿里大数据接下来怎么玩?_炬鼎力_新浪博客 http://blog.sina.com.cn/s/blog_1427354e00102vzyq.html " ...
国内物联网平台（7）：Ablecloud物联网自助开发和大数据云平台
国内物联网平台(7)——Ablecloud物联网自助开发和大数据云平台马智平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速 ...
阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
国内物联网平台初探（七） ——Ablecloud物联网自助开发和大数据云平台
平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速硬件实现联网智能化. 架构服务云端服务一体化开发引擎业内独创一体化开发引 ...
【ArchSummit干货分享】个推大数据金融风控算法实践
作者:个推高级数据工程师晓骏众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域.随着大数据收集.存储.分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节. ...
Kona JDK 在腾讯大数据领域内的实践与发展
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及Medical ...

随机推荐

fyne - 谁说用Go不能开发应用界面
fyne项目介绍 fyne 是一个纯 Golang 的跨平台 GUI 库,跨平台库说实话,是有很多选择的,Flutter.Electron.QT等.fyne 绝对不是一个很大众的选择.但是在我,一名后 ...
记录--微信小程序获取用户信息的最新方法记录
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助微信小程序获取用户信息的几种方式以下三种方式都无法获取到用户的openID 1. 开放组件获取用户信息<open-data> ...
这里有你不得不了解的Java 11版本特性说明
「MoreThanJava」宣扬的是「学习,不止 CODE」,本系列 Java 基础教程是自己在结合各方面的知识之后,对 Java 基础的一个总回顾,旨在「帮助新朋友快速高质量的学习」. 当然 ...
KingbaseES V8R3集群部署案例之---通用机无ssh环境脚本部署集群
案例说明: 在一些通用机的生产环境,不允许主机之间通过ssh通讯,或者不允许root用户建立ssh互信或登录.默认KingbaseES V8R3集群通用机环境部署需要建立数据库用户及root用户,在集 ...
跳转到制定Sheet页及提交指定sheet页内容
一.跳转到指定Sheet的实现话不多说,先上效果图两个按钮的事件分别如下: _g().loadSheetByName("sheet1") # 跳转至sheet1按钮事件 _g( ...
我们正在被 DDoS 攻击，但是我们啥也不干，随便攻击...
最近,一场激烈的攻防大战在网络世界悄然上演. 主角不是什么国家安全局或者黑客组织,而是一家名不见经传的创业公司--TablePlus. DDoS 攻击者们摩拳擦掌,跃跃欲试.他们从四面八方蜂拥而至,誓 ...
【已解决】Hadoop_07 Hadoop启动超时失败
C#的无边框窗体改变大小解决方案 - 开源研究系列文章
这次继续研究无边框窗体需要的功能.其实就是把有边框的默认窗体的一些功能进行实现而已.不过不同的人不一定相同的代码,所以笔者尽量用最简单有效的方法例子让读者能够直接对代码进行复用,以节省时间和人力.这次 ...
OpenHarmony开发之MQTT讲解
相信MQTT这个名称大家都不陌生,物联网的开发必然会遇到MQTT相关知识的应用.那么什么是MQTT?它有什么特点?它能解决什么问题?它是如何工作的?OpenAtom OpenHarmony(以下简 ...
构筑智能未来的开源 .Net AI知识库/智能体项目
在这个信息爆炸的时代,我们如何快速准确地从汪洋大海的数据中抽取真正有价值的知识呢?AntSK,一个基于.NET开发的人工智能知识库和智能体项目,似乎给出了一个新颖的答案.今天,就让我们一起深入了解An ...

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

shuffle 存算分离

缓存方案

ACK 调度

其他

阿里实践 - EMR on ACK

整体方案介绍

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

2、RSS 性能如何，成本如何，扩展性如何？

Spark Shuffle

EMR Remote Shuffle Service

RSS TeraSort Benchmark

Spark on ECI 效果

Summary

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

随机推荐

热门专题

开源大数据社区 & 阿里云 EMR 系列直播第六期