Spark 的combineByKey函数

在Spark中有许多聚类操作是基于combineByKey的，例如group那个家族的操作等。所以combineByKey这个函数也是比较重要，所以下午花了点时间看来下这个函数。也参考了http://www.tuicool.com/articles/miueaqv这篇博客。

先看下combineByKey定义：

/**

* Generic function to combine the elements for each key using a custom set of aggregation

* functions. Turns an RDD[(K, V)] into a result of type RDD[(K, C)], for a "combined type" C

* Note that V and C can be different -- for example, one might group an RDD of type

* (Int, Int) into an RDD of type (Int, Seq[Int]). Users provide three functions:

* - `createCombiner`, which turns a V into a C (e.g., creates a one-element list)

* - `mergeValue`, to merge a V into a C (e.g., adds it to the end of a list)

* - `mergeCombiners`, to combine two C's into a single one.

* In addition, users can control the partitioning of the output RDD, and whether to perform

* map-side aggregation (if a mapper can produce multiple items with the same key).

def combineByKey[C](createCombiner: V => C,

mergeValue: (C, V) => C,

mergeCombiners: (C, C) => C,

partitioner: Partitioner,

mapSideCombine: Boolean = true,

serializer: Serializer = null): RDD[(K, C)] = {

//实现略

}

这个函数主要是将键值对[(K,V)]转换为[(K,C)]，并且这里的V,C类型可以不同。

对于里面的三个函数的作用，上述的博客的例子讲得很通俗，所以就拿过来直接讲下。

假设我们要将一堆的各类水果给榨果汁，并且要求果汁只能是纯的，不能有其他品种的水果。那么我们需要一下几步：

1 定义我们需要什么样的果汁

2 定义一个榨果汁机，即给定水果，就能给出我们定义的果汁

3 定义一个果汁混合器，即能将相同类型的水果果汁给混合起来。

那么有了这三步，我们就只需要往这个果汁机中仍水果，那么这个果汁机就会产生果汁，并且果汁经过果汁混合器就能将相同品种的水果给聚在一块了。

那么对比上述三步，combineByKey的三个函数也就是这三个功能

1 createCombiner就是定义了v如何转换为c

2 mergeValue 就是定义了如何给定一个V将其与原来的C合并成新的C

3 就是定义了如何将相同key下的C给合并成一个C

下面以一个例子来说明，例如有

data=sc.parallelize([("a",2),("a",3),("b",4)])这个数据，后面的数字表示该字符权重，我们现在想求每个字符出现的平均权重。

data.combineByKey((lambda v:(v,1)),

(lambda c,v:(c[0]+v,c[1]+1)),

(lambda x,y:(x[0]+y[0],x[1]+y[1])))

那么第一个函数

lambda v:(v,1)中的参数v为键值对的value，我们定义C为(v,1)后面的1用与计数

第二个函数

(lambda c,v:(c[0]+v,c[1]+1)) 这里的参数c可以理解为已经榨好的果汁，v为新加进去的水果，在这里假设此时c为(2,1)v为3,那么应该对应的权重相加，并且计数加1,c[0]+v就是权重相加，c[0]是2，接着就是对其计数加1.（其实这里已经是对相同的key进行归类了，否则c和v的key不同，在这里就会混乱）

第三个函数

(lambda x,y:(x[0]+y[0],x[1]+y[1]))，这里是将相同品种的水果果汁给混合起来，所以这里的参数x,y其实都是c类型的。所以这里需要做的就是相应的的权重相加，并且计数相加。这里的x[0]+y[0]就是权重相加，x[1]+y[1]就是计数相加。

利用combineByKey实现groupByKey

groupByKey是将key相同的value聚合成一个list

data=sc.parallelize([("a",2),("a",3),("b",4),("b",2)])

一开始自己的写法是：

temp=data.combineByKey((lambda v:[v]),
　　　　　　　　　　　　(lambda c,v:c.append(v)),
　　　　　　　　　　　　(lambda x,y:x.extend(y)))

但总是返回[("a",None),("b",None)]后来才发现原来是因为python中对于list.append()没有返回值，所以c.append(v)返回值为None。但是这三个函数都是需要返回值的。对于第二个而言返回的是V加入C后的C，对于第三个而言返回的是C和另一个C合并后的C

所以

def g(c,v);

　　c.append(v)

　　return c

def h(c1,c2):

　　c1.extend(c2)

　　return c1

data.combineByKey((lambda v:[v]),g,h)这样就能正确返回了

总结：

虽然对于细节了解不够深，但是猜测第二个函数像是Hadoop中的local combiner就是对本地中的相同的key的水果进行榨汁混合，第三个函数像是在全局中对相同的key的水果进行混合（此时不需要榨汁了）。

Spark 的combineByKey函数的更多相关文章

Spark入门（六）--Spark的combineByKey、sortBykey
spark的combineByKey combineByKey的特点 combineByKey的强大之处,在于提供了三个函数操作来操作一个函数.第一个函数,是对元数据处理,从而获得一个键值对.第二个函 ...
自定义实现spark的分区函数
有时自己的业务需要自己实现spark的分区函数以下代码是实现一个自定义spark分区的demo 实现的功能是根据key值的最后一位数字,写到不同的文件例如: 10写入到part-00000 11写 ...
Spark远程调试函数
Spark远程调试函数 1.sendInfo 该函数用于分布式程序的调试,非常方便,在spark的rdd操作中嵌入sendInfo,启动nc服务器后,可以收集到所有需要的运行时信息,该函数可以捕获ho ...
Spark SQL 自定义函数类型
Spark SQL 自定义函数类型一.spark读取数据二.自定义函数结构三.附上长长的各种pom 一.spark读取数据前段时间一直在研究GeoMesa下的Spark JTS,Spark J ...
spark中的combineByKey函数的用法
一.函数的源码 /** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD ...
Spark核心RDD：combineByKey函数详解
https://blog.csdn.net/jiangpeng59/article/details/52538254 为什么单独讲解combineByKey? 因为combineByKey是Spark ...
Spark RDD——combineByKey
为什么单独讲解combineByKey? 因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的.诸如 groupByKey,reduceByKey ...
spark之combineByKey
combineByKey def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombi ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...

随机推荐

【威佐夫博奕】 betty定理 poj 1067
Description 有两堆石子,数量任意,可以不同.游戏开始由两个人轮流取石子.游戏规定,每次有两种不同的取法,一是可以在任意的一堆中取走任意多的石子:二是可以在两堆中同时取走相同数量的石子.最后 ...
GDT、GDTR、LDT、LDTR的理解
GDT是全局描述附表,主要存放操作系统和各任务公用的描述符,如公用的数据和代码段描述符.各任务的TSS描述符和LDT描述符.(TSS是任务状态段,存放各个任务私有运行状态信息描述符)LDT是局部描述符 ...
java应用测试报告生成(二):利用ant的build.xml生成测试报告
1.将写好的项目导出在工程下会生成一个build.xml的蚂蚁图标的文件. 2.右击该文件,选择run as Ant build 其中的测试目录是可以选择的,如果涉及到顺序也可以调整顺序 3.执行后 ...
POJ 1067 取石子游戏威佐夫博弈
威佐夫博弈(Wythoff Game):有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中取同样多的物品,规定每次至少取一个,多者不限,最后取光者得胜. 我们用(ak,bk)(ak ≤ bk ,k= ...
boost库之geometry<二>
#include <boost/assign.hpp> #include <boost/geometry/core/point_type.hpp> #include <b ...
gameUnity 0.15alpha 网络游戏框架
在重要版本 0.2之前,先出一个 0.15alpha 版本热热身. 0.15主要是添加了动画事件和一些动画特效的类,比如快进,慢进,(类似被冰冻效果),但这些都不在这个 alpha版本中出现 ...
Node.js学习 - File Operation
同步异步文件系统(fs 模块)模块中的方法均有异步和同步版本,例如读取文件内容的函数有异步的 fs.readFile() 和同步的 fs.readFileSync(). 异步的方法函数最后一个参数为 ...
利用未文档化API：RtlAdjustPrivilege 提权实现自动关机
这里主要是利用NTDLL.dll中未文档化的API: RtlAdjustPrivilege 来实现提权.自动关机的功能. RtlAdjustPrivilege定义如下: NTSTATUS RtlAdj ...
startActivityForResult相关的
在Fragment里调用startActivityForResult,界面回来后,会先走其宿主Activity的onActivityResult方法,再走Fragment的. 在Fragment里面嵌 ...
Review Board的使用
代码审核工具.先在命令行界面,进入到工程的Main目录下,然后使用命令 svn diff>yus.diff 这样就将Main里面的所有内容生成了,然后在浏览器里进入到自己的Review Boa ...

Spark 的combineByKey函数

Spark 的combineByKey函数的更多相关文章

随机推荐

热门专题