Spark Shuffle 过程

本文参考：http://www.cnblogs.com/cenyuhai/p/3826227.html

在数据流动的整个过程中，最复杂最影响性能的环节，就是 Shuffle 过程，本文将参考大神的博客，根据 Spark-1.5 的代码，再次走读一遍。

Shuffle 过程

Spark 中最经典的 Shuffle 过程发生在函数 reduceByKey、groupByKey。这里以 reduceByKey 为例分析。举个例子：

val pairs = sc.parallelize(Array((, ), (, ), (, ), (, ), (, )))

val sums = pairs.reduceByKey(_ + _).collect()

sums.foreach(println)

结果为：

(,)

(,)

相关代码如下：

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)] = self.withScope {

  reduceByKey(new HashPartitioner(numPartitions), func)

}

/**

 * Merge the values for each key using an associative reduce function. This will also perform

 * the merging locally on each mapper before sending results to a reducer, similarly to a

 * "combiner" in MapReduce. Output will be hash-partitioned with the existing partitioner/

 * parallelism level.

 */

def reduceByKey(func: (V, V) => V): RDD[(K, V)] = self.withScope {

  reduceByKey(defaultPartitioner(self), func)

}

注释说的挺清楚的，翻译一下：使用 reduce 函数 merge 同一个 key 的 values。这里会在每个 mapper 端执行本地的 merge，然后将结果发送到 reducer 端，作用类似于 MapReduce 中的 combiner。输出结果会被 hash-partitioned。之后的代码也会解释这个步骤。

第一个 reduceByKey 的分区数目是传入的，第二个则使用默认方法：

def defaultPartitioner(rdd: RDD[_], others: RDD[_]*): Partitioner = {

  val bySize = (Seq(rdd) ++ others).sortBy(_.partitions.size).reverse

  for (r <- bySize if r.partitioner.isDefined && r.partitioner.get.numPartitions > ) {

    return r.partitioner.get

  }

  if (rdd.context.conf.contains("spark.default.parallelism")) {

    new HashPartitioner(rdd.context.defaultParallelism)

  } else {

    new HashPartitioner(bySize.head.partitions.size)

  }

}

默认的计算方式为：

1. 优先使用自定义的分区函数

2. 次而使用参数 spark.default.parallelism 作为分区数，创建 HashPartition

3. 最后选择输入数据的分区数，创建 HashPartition

==== 未完待续

Spark Shuffle 过程的更多相关文章

022 Spark shuffle过程
1.官网 http://spark.apache.org/docs/1.6.1/configuration.html#shuffle-behavior Spark数据进行重新分区的操作就叫做shuf ...
浅析 Spark Shuffle 内存使用
在使用 Spark 进行计算时,我们经常会碰到作业 (Job) Out Of Memory(OOM) 的情况,而且很大一部分情况是发生在 Shuffle 阶段.那么在 Spark Shuffle 中具 ...
Spark Shuffle数据处理过程与部分调优（源码阅读七）
shuffle...相当重要,为什么咩,因为shuffle的性能优劣直接决定了整个计算引擎的性能和吞吐量.相比于Hadoop的MapReduce,可以看到Spark提供多种计算结果处理方式,对shuf ...
Spark shuffle详细过程
有许多场景下,我们需要进行跨服务器的数据整合,比如两个表之间,通过Id进行join操作,你必须确保所有具有相同id的数据整合到相同的块文件中.那么我们先说一下mapreduce的shuffle过程. ...
彻底搞懂spark的shuffle过程（shuffle write）
什么时候需要 shuffle writer 假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系: E <-------n------, ...
Spark 的 Shuffle过程介绍`
Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wi ...
剖析Hadoop和Spark的Shuffle过程差异
一.前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交.并.差.聚合.排序等过程.而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么 ...
剖析Hadoop和Spark的Shuffle过程差异（一）
一.前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交.并.差.聚合.排序等过程.而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么 ...
Spark的Shuffle过程介绍
Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wi ...

随机推荐

吴裕雄--天生自然PYTHON爬虫：使用Selenium爬取大型电商网站数据
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urll ...
Socket通信实现步骤
public class Server { public static void main(String[] args) { try { ServerSocket serverSocket = new ...
python学习第一课
第一课: 1.不要使用来路不明的软件 2.下载杀毒软件 3.不懂技术的人在技术人面前会显得愈发无知 4.python无所不能需要掌握的知识: 1.python基本语法 2.文件处理 3.函数 4.模 ...
学习笔记（11）- 文本生成RNNLG
https://github.com/shawnwun/RNNLG 数据集给出了4个行业的语料,餐馆.酒店.电脑.电视,及其组合数据. 数据格式任务根据给定格式的命令,生成自然语言. 方法.模型 ...
SwiftStack 因战略转变而裁员
导读销售团队在前段圣诞节来临前面临裁减的糟糕处境.企业云存储公司SwiftStack进行了裁员,人数不详,公司规模因此缩小. IT外媒The Register获悉,这家公司裁掉了大概一半的人员,但总 ...
vscode调试开发C/C++程序
https://www.cnblogs.com/TAMING/p/8560253.html
Ansible ssh-key密钥认证配置
对于被管理服务器做免密码登录设置 1.在管理服务器生成ssh-key密钥 #ssh-keygen //生成秘钥 root@hsz:/etc/ansible# ssh-keygen Generatin ...
CentOS 下的apache服务器配置与管理
一.WEB服务器与Apache1.web服务器与网址 2.Apache的历史 3.补充http://www.netcraft.com/可以查看apache服务器的市场占有率同时必须注意的是ngnix, ...
Python使用正则表达式（Regular Expression）超详细
一.导入re库 python使用正则表达式要导入re库. import re在re库中.正则表达式通常被用来检索查找.替换那些符合某个模式(规则)的文本.ps:另外很多人在学习Python的过程中,往 ...
Scrapy 使用 Item 封装数据、使用 Item Pipline处理数据
1.Item 和 Field Scrapy 提供一下两个类,用户可以使用它们自定义数据类,封装爬取到的数据: (1)Item类自定义数据类(如 BookItem)的基类 (2)Field 用来描述自 ...

Spark Shuffle 过程

Spark Shuffle 过程的更多相关文章

随机推荐

热门专题