Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?
欢迎关注我的新博客地址:http://cuipengfei.me/blog/2014/10/31/spark-fold-aggregate-why-not-foldleft/
大家都知道Scala标准库的List有一个用来做聚合操作的foldLeft方法。
比方我定义一个公司类:
1 |
|
它有名字和子公司。 然后定义几个公司:
1 |
|
三家大公司,然后呢,我如果有一家超牛逼的公司把它们给合并了:
1 |
|
这个运行的结果是这种:
1 |
|
可见foldLeft的结果是一家包括了BAT三大家得新公司。
由List[Company]聚合出一个新的Company,这样的属于foldLeft的同构聚合操作。
同一时候,foldLeft也能够做异构的聚合操作:
1 |
|
它的运行结果是这种:
1 |
|
由List[Company]聚合出一个String。
这种API感觉非常方便。仅仅要是聚合。不管同构异构。都能够用它来做。
近期接触了Spark,当中的RDD是做分布式计算时最经常使用的一个类。
RDD有一个叫做fold的API,它和foldLeft的签名非常像,唯一差别是它仅仅能做同构聚合操作。
也就是说假设你有一个RDD[X],通过fold,你仅仅能构造出一个X。
假设我想通过一个RDD[X]构造一个Y出来呢?
那就得用aggregate这个API了,aggregate的签名是这种:
1 |
|
它比fold和foldLeft多须要一个combOp做參数。
这让我非常不解,同构和异构的API干嘛非得拆成两个呢?怎么不能学Scala的标准库,把它做成类似foldLeft的样子呢?
后来想明确了,这是因为Spark须要分布运算造成的。
先想一下Scala List的foldLeft是怎么工作的?
1 |
|
- 拿到初始值,即名字为king的公司,把它和list中的第一个公司合并,成为一个包括一家子公司的新公司
- 把上一步中的新公司拿来和list中的第二个公司合并,成为一个包括两家子公司的新公司
- 把上一步中的新公司拿来和list中的第三个公司合并,成为一个包括三家子公司的新公司
这是同构的过程。
1 |
|
- 拿到初始值,即空字符串。把它和list中的第一个公司的名字拼在一起,成为B
- 把上一步中的B第二个公司名字拼一起。成为BA
- 把上一步中的BA拿来和list中的第三个公司的名字拼一起,成为BAT
这是异构的过程。
像多米诺骨牌一样,从左到右依次把list中的元素吸收入结果中。
如今如果RDD[X]中有一个类似foldLeft的API,其签名和foldLeft一致,我如今调用foldLeft,给它一个f:(Y,X)=>Y,接下来该发生什么呢?
- 由于要分布计算,所以我先要把手里的非常多个X分成几份。分发到不同的节点上去
- 每一个节点把拿到的非常多个X计算出一个Y出来
- 把全部节点的结果拿来,这时我手里就有了非常多个Y
- 啊。。。我不知道怎么把非常多个Y变成一个Y啊。。。
因为Spark的RDD不像Scala的List一样仅仅须要推倒一副多米诺骨牌。而是要推倒非常多副。最后再对非常多副多米诺骨牌的结果做聚合。
这时假设是同构还好,我仅仅须要再用f:(X,X)=>X做一遍就ok了。
可是假设是异构的,那我就必须得再须要一个f:(Y,Y)=>Y了。
Spark RDD的fold和aggregate为什么是两个API?为什么不是一个foldLeft?的更多相关文章
- Apache Spark : RDD
Resilient Distributed Datasets Resilient Distributed Datasets (RDD) is a fundamental data structure ...
- Spark RDD
对RDD的学习进行一下整理 RDD:基于内存的集群计算容错抽象 分布式内存抽象的概念---弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基 ...
- Spark RDD概念学习系列之Spark的算子的分类(十一)
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
- spark RDD编程,scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
- Spark RDD编程核心
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建.转换.调用求值. 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式 ...
- Spark RDD :Spark API--Spark RDD
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
- Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
- Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考 直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
- spark RDD transformation与action函数整理
1.创建RDD val lines = sc.parallelize(List("pandas","i like pandas")) 2.加载本地文件到RDD ...
随机推荐
- 5 THINGS TOP BUG BOUNTY HUNTERS DO DIFFERENTLY
出处:https://www.hackerone.com/blog/5-things-top-bug-bounty-hunters-do-differently 本周,我们有幸收容了50名比利时科技学 ...
- shell expect的简单用法【转】
用expect实现自动登录的脚本,网上有很多,可是都没有一个明白的说明,初学者一般都是照抄.收藏.可是为什么要这么写却不知其然.本文用一个最短的例子说明脚本的原理. 脚本代码如下: ######## ...
- 为你详细解读HTTP请求头的具体含意
当我们打开一个网页时,浏览器要向网站服务器发送一个HTTP请求头,然后网站服务器根据HTTP请求头的内容生成当次请求的内容发送给浏览器.你明白HTTP请求头的具体含意吗?下面一条条的为你详细解读,先看 ...
- MySQL之EXPLAIN 执行计划详解
explain 可以分析 select 语句的执行,即 MySQL 的“执行计划. 一.type 列 MySQL 在表里找到所需行的方式.包括(由左至右,由最差到最好): | All | index ...
- 在局域网内实现https安全访问
在局域网内实现https安全访问 准备原料 服务器 resin (当然也可以是tomcat,这里以resin为例) 安装jdk 域名 (随便写一个就行,因为是内网使用,不会被校验) 生成证书 第一步: ...
- 【论文阅读】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis
转载请注明出处:https://www.cnblogs.com/White-xzx/ 原文地址:https://arxiv.org/abs/1709.09930 Github: https://git ...
- Servlet 3.0 新特性详解
转自:http://www.ibm.com/developerworks/cn/java/j-lo-servlet30/#major3 Servlet 是 Java EE 规范体系的重要组成部分,也是 ...
- 方法调用---springMVC中调用controller的方法
我们有一个路由StudentController,里面有一个方法count().如果要在另外一个GradeController中调用count()方法有2种方式: 因为StudentControlle ...
- poj 3468 线段树 成段增减 区间求和
题意:Q是询问区间和,C是在区间内每个节点加上一个值 Sample Input 10 51 2 3 4 5 6 7 8 9 10Q 4 4Q 1 10Q 2 4C 3 6 3Q 2 4Sample O ...
- Kubernetes Master节点灾备恢复操作指南---升级版
本文档简述了Kubernetes主节点灾备恢复的相关步骤,供在发生k8s master崩溃时操作. 就算是在k8s里部署了etcd群集, 主节点控制组件的高可用节点,灾备恢复也是必须要实现的操作,才能 ...