聊聊Spark的分区、并行度 —

通过之前的文章【Spark RDD详解】，大家应该了解到Spark会通过DAG将一个Spark job中用到的所有RDD划分为不同的stage，每个stage内部都会有很多子任务处理数据，而每个stage的任务数是决定性能优劣的关键指标。

首先来了解一下Spark中分区的概念，其实就是将要处理的数据集根据一定的规则划分为不同的子集，每个子集都算做一个单独的分区，由集群中不同的机器或者是同一台机器不同的core进行分区并行处理。

Spark对接不同的数据源，在第一次得到的分区数是不一样的，但都有一个共性：对于map类算子或者通过map算子产生的彼此之间具有窄依赖关系的RDD的分区数，子RDD分区与父RDD分区是一致的。而对于通过shuffle差生的子RDD则由分区器决定，当然默认分区器是HashPartitioner，我们完全可以根据实际业务场景进行自定义分区器，只需继承Parttioner组件，主要重写几个方法即可

以加载hdfs文件为例，Spark在读取hdfs文件还没有调用其他算子进行业务处理前，得到的RDD分区数由什么决定呢？关键在于文件是否可切分！

对于可切分文件，如text文件，那么通过加载文件得到的RDD的分区数默认与该文件的block数量保持一致；

对于不可切分文件，它只有一个block块，那么得到的RDD的分区数默认也就是1。

当然，我们可以通过调用一些算子对RDD进行重分区，如repartition。

这里必须要强调一点，很多小伙伴不理解，RDD既然不存储数据，那么加载过来的文件都跑哪里去了呢？这里先给大家提个引子——blockmanager，Spark自己实现的存储管理器。RDD的存储概念其实block，至于block的大小可以根据不同的数据源进行调整，blockmanager的数据存储、传输都是以block进行的。至于block内部传输的时候，它的大小也是可以通过参数控制的，比如广播变量、shuffle传输时block的大小等。

下面再通过大家熟知的一个参数spark.default.parallelism为引，聊一聊Spark并行度都由哪些因素决定？

上图是spark官网关于spark.default.parallelism参数说明：

对于reduceByKey和join这些分布式shuffle算子操作，取决于它的父RDD中分区数的最大值
对于没有父RDD的的算子，比如parallelize，依赖于集群管理器：

本地模式：取决于本地机器的核数
如果集群管理器是Mesos，则为8
其他的：对比所有executor上总核数与2比较，哪个大是哪个

当然上面这些都是默认值，如果我们自己设置了分区数，情况就会有所变化，直接看源码【查看org.apache.spark.Partitioner源码defaultPartitioner方法】

你会发现，如果你使用reducebykey、groupByKey等这些带shuffle的算子，建议不要通过上述方法让程序内部去推测。完全可以通过传入一个确定的分区数或者自己实现一个分区器来做处理。当然这个确定的分区数也不是贸贸然设定的，需要结合你的业务场景根据实际情况来确定多少合适。比如shuffle时流经的数据量，这个就要结合分区数和shuffle总数据量来做适当调整，处理不好的结果极有可能导致数据倾斜等问题...

笔者再次建议，学习Spark一定要多看Spark官网http://spark.apache.org/，并且多看源码

关注微信公众号：大数据学习与分享，获取更对技术干货

聊聊Spark的分区、并行度 —— 前奏篇的更多相关文章

重要 | Spark分区并行度决定机制
最近经常有小伙伴在本公众号留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.defaul ...
【转载】 Spark性能优化指南——基础篇
转自:http://tech.meituan.com/spark-tuning-basic.html?from=timeline 前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能 ...
【转】【技术博客】Spark性能优化指南——高级篇
http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...
【转】Spark性能优化指南——基础篇
http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a ...
Spark性能优化指南——基础篇（转载）
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南——基础篇
本文转自:http://tech.meituan.com/spark-tuning-basic.html 感谢原作者前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一 ...
Spark性能优化指南——高级篇
本文转载自:https://tech.meituan.com/spark-tuning-pro.html 美团技术点评团队) Spark性能优化指南——高级篇李雪蕤 ·2016-05-12 14:4 ...
Spark性能优化指南——基础篇转
前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark的功能涵盖了大数据领域的离线批处理.SQL类处理.流式/实时计算.机器学习.图计算等各种不同类型的计算操作 ...
Spark性能优化指南--基础篇
前言开发调优调优概述原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚 ...

随机推荐

2016-12-04---tiny412平台下的iconv库的移植问题
一.解决问题在arm开发板上使用framebuff,在汉字显示时,因为只有gb2312的16*16的汉字字库,而ubuntu16.04默认的编码方式时utf-8,因此需要进行转码(ut ...
IDEA 简拼输入
1. sout = System.out.println(); 2. soutp = System.out.println(""); 3. soutv = System.out.p ...
用算法去扫雷(go语言)
最初的准备首先得完成数据的录入,及从扫雷的程序读取界面数据成为我的算法可识别的数据其次是设计扫雷的算法,及如何才能判断格子是雷或者可以点击鼠标左键和中键. 然后将步骤2的到的结果通过我的程序实现鼠 ...
redis 开启AOF 持久化
redis 开启AOF 找到redis 安装目录打开 redis.conf 修改以下参数: appendonly yes (默认no,关闭)表示是否开启AOF持久化: append ...
go 爬取页面保存
package main import ( "bufio" "fmt" "io/ioutil" "net/http" & ...
Linux 生产主流版本
CentOS 8 下载 https://mirrors.aliyun.com/centos/8.1.1911/isos/x86_64/CentOS-8.1.1911-x86_64-dvd1.iso L ...
Github上的沙雕项目，玩100遍都不够
这段时间大家在家自我隔离.居家办公憋坏了吧.为了打发这种无聊的生活,我决定拿出我在github上珍藏多年的沙雕项目,让大家在无聊的时候可以打发时间. Github作为互联网上最大的开源社区,一直备受程 ...
面试官：说说CountDownLatch，CyclicBarrier，Semaphore的原理？
CountDownLatch CountDownLatch适用于在多线程的场景需要等待所有子线程全部执行完毕之后再做操作的场景. 举个例子,早上部门开会,有人在上厕所,这时候需要等待所有人从厕所回来之 ...
微信小程序-基于高德地图API实现天气组件(动态效果)
微信小程序-基于高德地图API实现天气组件(动态效果) 在社区翻腾了许久,没有找到合适的天气插件.迫不得已,只好借鉴互联网上的web项目,手动迁移到小程序中使用.现在分享到互联网社区中,帮助后续有 ...
渗透测试之nmap
一,功能介绍 Nmap是网络连接端口扫描软件,用来扫描网上电脑开放的哪些连接端口,并且确定哪些服务运行在哪些端口连接,推断是哪个操作系统,他是网络管理员必备的软件之一,以及用于评估网络系统安全. 二, ...

聊聊Spark的分区、并行度 —— 前奏篇

聊聊Spark的分区、并行度 —— 前奏篇的更多相关文章

随机推荐

热门专题