Spark聚合操作：combineByKey()

Spark中对键值对RDD(pairRDD)基于键的聚合函数中，都是通过combineByKey()实现的。

它可以让用户返回与输入数据类型不同的返回值（可以自己配置返回的参数，返回的类型）

首先理解：combineByKey是一个聚合函数，实际使用场景比如,对2个同学的3门考试科目成绩，分别求出他们的平均值。

（也就是对3门考试成绩进行聚合，用一个平均数来表示）

combineByKey是通过3个内部函数来解决这个问题的：

具体处理过程为：遍历分区中的所有元素，因此每一个元素的键要么没有遇到过，要么就和之前的键相等。

它的参数形式为：combineByKey(1.createCombiner,2.mergeValue,3.mergeCombiners,4.partioner)

比如，我有一个数组{1,2,1,2,4}

具体流程为：第一次遇到1，调用createCombiner()函数。

2.第一次遇到2，调用createCombiner()函数。

3.第二次遇到1，调用mergeValue()函数。

4.第二次遇到2，调用mergeValue()函数。

5.第一次遇到4，调用mergeValue()函数。

接下来解释每一个函数的作用

1.createCombiner():在遍历过程中，遇到新的键，就会调用createCombiner()函数。这个过程会发生在每一个分区内，因为RDD中有不同的分区，也就有同一个键调用多次createCombiner的情况。

2.mergeValue() 遇到已经重复的键，调用mergeValue()函数。

3.mergeCombiners() 如果有2个或者更多的分区，会把分区的结果合并。

4.pationer 分区函数（）

举例：

准备数据：

val scores =sc.parallelize(Array(

("jack",89.0),

("jack",82.0),

("jack",92.0),

("tom",88.0),

("tom",89.0),

("tom",98.0)

))

　　数据为jack和tom的3门科目成绩，要对jack和tom的平均成绩进行输出。

1.遍历过程中，统计课程的数目，同时计算总分。

val score2=scores.combineByKey(x =>(1,x) ,

(c1:(Int,Double),newScore)=>(c1._1+1,c1._2+newScore),

(c1:(Int,Double),c2:(Int,Double))=>(c1._1+c2._1,c1._2+c2._2))

详解：

x =>(1,x) 将scores的value转化为(1,value)的格式

(c1:(Int,Double),newScore)=>(c1._1+1,c1._2+newScore) 遇到重复的key：我们对value的处理过程为：

之前计算的结果定义为newScore,对c1:(c1._1,c2._2)处理过程为：(c1._1+1,c2._2+newScore)

实际意义为：再次遍历到jack时，我们将科目数量+1，将统计的总分再加上遍历到的分数。

(c1:(Int,Double),c2:(Int,Double))=>(c1._1+c2._1,c1._2+c2._2)) 对2个不同的分区c1,c2（这2个分区，他的键相同，都是Jack）

最后我们将不同分区的结果相加。

比如我们还有另一个分区("jack",45) 代表c2。我们要将Jack的科目数+1，总分+45. 获得最终结果

统计得到的结果：得到姓名：科目+总分

scala> score2.foreach(println)

(tom,(3,275.0))

(jack,(3,263.0))

2.求平均值：

val average=score2.map{case(name, (num,score) )=>(name,score/num) }

结果： average.foreach(println)

(tom,91.66666666666667)

(jack,87.66666666666667)

Spark聚合操作：combineByKey()的更多相关文章

Spark GraphX 聚合操作
package Spark_GraphX import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graph ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
spark中的combineByKey函数的用法
一.函数的源码 /** * Simplified version of combineByKeyWithClassTag that hash-partitions the resulting RDD ...
Update(Stage4)：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作
8. Dataset (DataFrame) 的基础操作 8.1. 有类型操作 8.2. 无类型转换 8.5. Column 对象 9. 缺失值处理 10. 聚合 11. 连接 8. Dataset ...
《Entity Framework 6 Recipes》中文翻译系列 (27) ------ 第五章加载实体和导航属性之关联实体过滤、排序、执行聚合操作
翻译的初衷以及为什么选择<Entity Framework 6 Recipes>来学习,请看本系列开篇 5-9 关联实体过滤和排序问题你有一实体的实例,你想加载应用了过滤和排序的相关 ...
MongoDB 聚合操作
在MongoDB中,有两种方式计算聚合:Pipeline 和 MapReduce.Pipeline查询速度快于MapReduce,但是MapReduce的强大之处在于能够在多台Server上并行执行复 ...
.NET LINQ 聚合操作
聚合操作聚合运算从值集合计算单个值. 从一个月的日温度值计算日平均温度就是聚合运算的一个示例. 方法方法名说明 C# 查询表达式语法 Visual Basic 查询表达式语法更多信息 ...
Linq查询操作之聚合操作(count,max,min,sum,average,aggregate,longcount)
在Linq中有一些这样的操作,根据集合计算某一单一值,比如集合的最大值,最小值,平均值等等.Linq中包含7种操作,这7种操作被称作聚合操作. 1.Count操作,计算序列中元素的个数,或者计算满足一 ...
OpenStack/Gnocchi简介——时间序列数据聚合操作提前计算并存储起来，先算后取的理念
先看下 http://www.cnblogs.com/bonelee/p/6236962.html 这里对于环形数据库的介绍,便于理解归档这个操作! 转自:http://blog.sina.com.c ...

随机推荐

【转载】Java 集合框架
http://wangkuiwu.github.io/2012/02/03/collection-03-arraylist/ 网上比较全的Java集合框架教程. 注:transient是Java语言的 ...
c# 匿名函数与托付
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/han_yankun2009/article/details/26290779 在 2.0之前的 ...
URL地址理解
/ 表示相对目录的根目录./ 表示相对目录的本层目录../ 表示相对目录的上层目录
Odoo作为后端时如何返回数据给webapp、移动端app
转载请注明原文地址:https://www.cnblogs.com/cnodoo/p/9307315.html 使用jinja2渲染的页面,可以直接在调用template.render()时传递参数 ...
Redis——总结
启动 redis 客户端,打开终端并输入命令 redis-cli.该命令会连接本地的 redis 服务. $redis-cli redis 127.0.0.1:6379> redis 127.0 ...
python+requests实现接口测试 - cookies的使用
在很多时候,发送请求后,服务端会对发送请求方进行身份识别,如果请求中缺少识别信息或存在错误的识别信息, 会造成识别失败. 如一些需要用户登录以后才能访问的页面. import requests mya ...
743. Network Delay Time
题目来源: https://leetcode.com/problems/network-delay-time/ 自我感觉难度/真实难度: 题意: 分析: 自己的代码: class Solution: ...
Spring AOP源码分析（二）动态A0P自定义标签
摘要: 本文结合<Spring源码深度解析>来分析Spring 5.0.6版本的源代码.若有描述错误之处,欢迎指正. 之前讲过Spring中的自定义注解,如果声明了自定义的注解,那么就一定 ...
数据库 —— mySQL相关
目录使用笔记问题解决资源链接 1.使用笔记 1.命令行客户端显示无法调整表格显示宽度,可以考虑在查询语句尾后添加 \G; 2.插入语句字符串转时间:link 2.问题解决 1.不能显示插入中文字 ...
bat取时间间隔
@echo off echo 现在时间是%time:~,%点%time:~,%分%time:~,%秒 ,%%time:~,%%time:~,% pause echo 现在时间是%time:~,%点%t ...

Spark聚合操作：combineByKey()

Spark聚合操作：combineByKey()的更多相关文章

随机推荐

热门专题