阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播第六期

主题：EMR spark on ACK 产品演示及最佳实践

讲师：石磊，阿里云 EMR 团队技术专家

内容框架：

云原生化挑战及阿里实践
Spark 容器化方案
产品介绍和演示

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

如何构建以对象存储为底座的 HCFS 文件系统

完全兼容现有的 HDFS
性能对标 HDFS，成本降低

shuffle 存算分离

如何解决 ACK 混合异构机型

异构机型没有本地盘
社区 [Spark-25299] 讨论，支持 Spark 动态资源，成为业界共识

缓存方案

如何有效支持跨机房、跨专线混合云

需要在容器内支持缓存系统

ACK 调度

如何解决调度性能瓶颈

性能对标 Yarn
多级队列管理

其他

错峰调度
Yarnon ACK 节点资源相互感知

阿里实践 - EMR on ACK

整体方案介绍

通过数据开发集群/调度平台提交到不同的执行平台
错峰调度，根据业务高峰低峰策略调整
云原生数据湖架构，ACK 弹性扩缩容能力强
通过专线，云上云下混合调度
ACK 管理异构机型集群，灵活性好

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

RSS 使得 Spark 作业不需要 Executor Pod 挂载云盘。挂载云盘非常不利于扩展性和大规模的生产实践。
云盘的大小无法事前确定，大了浪费空间，小了 Shuffle 会失败。RSS 专门为存储计算分离场景设计。
Executor 将 shuffle 数据写入了 RSS 系统，RSS 系统来负责管理 shuffle 数据，Executor 空闲后即可以回收。[SPARK-25299]
可以完美支持动态资源，避免数据倾斜的长尾任务拖住 Executor 资源不能释放。

2、RSS 性能如何，成本如何，扩展性如何？

RSS 对于 shuffle 有很深的优化，专门为存储与计算分离场景、K8s 弹性场景而设计。
针对 Shufflefetch 阶段，可以将 reduce 阶段的随机读变为顺序读，大大提升了作业的稳定性和性能。
可以直接利用原有 K8s 集群中的磁盘进行部署，不需要加多余的云盘来进行 shuffle。性价比非常高，部署方式灵活。

Spark Shuffle

产生 numMapper * numReducer 个 block
顺序写、随机读
写时 Spill
单副本，丢数据需 stage 重算

EMR Remote Shuffle Service

追加写、顺序读
无写时 Spill
两副本；副本复制到内存后即完成
副本之间通过内网备份，无需公网带宽

RSS TeraSort Benchmark

备注说明：以10T Terasort 为例，shuffle 量压缩后大约 5.6T。可以看出该量级的作业在 RSS 场景下，由于 shuffle read 变为顺序读，性能会有大幅提升。

Spark on ECI 效果

Summary

原文链接
本文为阿里云原创内容，未经允许不得转载。

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化 ...
揭秘日活千万腾讯会议全量云原生化上TKE技术实践
腾讯会议,一款联合国都Pick的线上会议解决方案,提供完美会议品质和灵活协作空间,广泛应用在政府.医疗.教育.企业等各个行业.大家从文章8天扩容100万核,腾讯会议是如何做到的?都知道腾讯会议背后的计 ...
DataPipeline在大数据平台的数据流实践
文 | 吕鹏 DataPipeline架构师进入大数据时代,实时作业有着越来越重要的地位.本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践. 一.企业级数据面临的主要 ...
"大中台、小前台”新架构下，阿里大数据接下来怎么玩？ (2016-01-05 11:39:50)
"大中台.小前台”新架构下,阿里大数据接下来怎么玩?_炬鼎力_新浪博客 http://blog.sina.com.cn/s/blog_1427354e00102vzyq.html " ...
国内物联网平台（7）：Ablecloud物联网自助开发和大数据云平台
国内物联网平台(7)——Ablecloud物联网自助开发和大数据云平台马智平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速 ...
阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践
16日上午9点,2016云栖大会“开源大数据技术专场” (全天)在阿里云技术专家封神的主持下开启.通过封神了解到,在上午的专场中,阿里云高级技术专家无谓.阿里云技术专家封神.阿里巴巴中间件技术部高级技 ...
国内物联网平台初探（七） ——Ablecloud物联网自助开发和大数据云平台
平台定位面向IoT硬件厂商,提供设备联网与管理.远程查看控制.定制化云端功能开发.海量硬件数据存储与分析等基础设施,加速硬件实现联网智能化. 架构服务云端服务一体化开发引擎业内独创一体化开发引 ...
【ArchSummit干货分享】个推大数据金融风控算法实践
作者:个推高级数据工程师晓骏众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域.随着大数据收集.存储.分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节. ...
Kona JDK 在腾讯大数据领域内的实践与发展
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及Medical ...

随机推荐

【Mahjong hdu 枚举】搜索枚举
#####枚举 import java.io.*; import java.util.*; public class Main { static HashSet<String> set1; ...
awk第一天
awk第一天 1.用awk 打印整个test.txt (以下操作都是用awk工具实现,针对test.txt) awk '{print}' test.txt [root@master ~]# awk ' ...
Android实际开发bug大总结
目录介绍 1.1 java.lang.UnsatisfiedLinkError找不到so库异常 1.2 java.lang.IllegalStateException非法状态异常 1.3 androi ...
说说你对vue的mixin的理解，有什么应用场景？
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助一.mixin是什么 Mixin是面向对象程序设计语言中的类,提供了方法的实现.其他类可以访问mixin类的方法而不必成为其子类 Mixi ...
记录--封装一个通过js调用的全局vue组件
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助前言在使用vue项目编写的时候,不可避免的会碰到需要时js api来调用组件进行显示的情况例如饿了么element ui 的 Noti ...
uniapp 微信对接地图的三种操作
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1.uni.getLocation 获取当前经维度先上代码 let that = this // 获取用户是否开启授权获取当前的地理位 ...
Spring Cloud Alibaba服务的注册与发现之Nacos部署
1.Nacos官网介绍 Nacos 致力于帮助您发现.配置和管理微服务.Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现.服务配置.服务元数据及流量管理.Nacos 帮助您更敏捷和容 ...
DenseBox：思想超前的早期Anchor-free研究 | CVPR 2015
DenseBox检测算法的设计十分超前,如今很多Anchor-free方法有其影子,如果当时不是比Faster R-CNN晚了一点出现,可能目标检测领域很早就开始往Anchor-free的方向发展了 ...
CH392作服务器TCP Server应用配置使用
CH392工作在TCP Server模式时,参考手册说明需要打开监听Socket端口,也要设置数据连接Socket端口,注意数据连接Socket的源端口和监听Socket的源端口一致. 配置TCP S ...
Jetty的bytebufferpool模块
bytebufferpool模块用于配置Jetty的ByteBuffer对象的对象池. 通过对象池的方式来管理ByteBuffer对象的使用和生命周期,期望降低Jetty进程内存的使用,同时降低JVM ...

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍

开源大数据社区 & 阿里云 EMR 系列直播 第六期

一、云原生化挑战及阿里实践

大数据技术发展趋势

云原生化面临挑战

计算与存储分离

shuffle 存算分离

缓存方案

ACK 调度

其他

阿里实践 - EMR on ACK

整体方案介绍

二、Spark 容器化方案

方案介绍

RSS Q&A

1、为什么需要 Remote Shuffle Service？

2、RSS 性能如何，成本如何，扩展性如何？

Spark Shuffle

EMR Remote Shuffle Service

RSS TeraSort Benchmark

Spark on ECI 效果

Summary

阿里大数据云原生化实践，EMR Spark on ACK 产品介绍的更多相关文章

随机推荐

热门专题

开源大数据社区 & 阿里云 EMR 系列直播第六期