1. reduceByKey

reduceByKey的作用对像是(key, value)形式的rdd,而reduce有减少、压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每个key只保留一条记录,保留一条记录通常,有两种结果:一种是只保留我们希望的信息,比如每个key出现的次数;第二种是把value聚合在一起形成列表,这样后续可以对value做进一步的操作,比如排序。

2. 使用说明

比如现在我们有数据goods Sale:RDD[(String, String)],两个字段分别是goodsid、单个订单中的销售额,现在我们需要统计每个goodsid的销售额。我们只需要保留每个goodsid的累记销售额,可以使用如下语句来实现:

val goodsSaleSum = goodsSale.reduceByKey((x,y) => x+y)
简化方式为:
val goodsSaleSum = goodsSale.reduceByKey(_+_)

reduceByKey会寻找相同key的数据,当找到这样的两条记录时会对其value(分别记为x,y)做(x,y) => x+y的处理,即只保留求和之后的数据作为value。反复执行这个操作直至每个key只留下一条记录。

现在假设goodsSaleSum还有一个字段类目id,即 RDD[(String, String, String)] 形式,三个字段分别是类目id、goodsid、总销量,现在我们要获得第个类目id下销量最高的一个商品。上一步聚是保留value求和之后的数据,而这里其实我们只需要保留销量更高的那条记录。不过我们不能直接对RDD[(String, String, String)]类型的数据使用reduceByKey方法,因为这并不是一个(key, value)形式的数据,所以需要使用map方法转化一下类型。

val catGmvTopGoods = goodsSaleSum.map(x => (x._1, (x._2, x._3))).reduceByKey((x, y) => if (x._2.toDouble > y._2.toDouble) x else y).map(x => (x._1, x._2._1, x._2._2)

再进一步,假设现在我们有一个任务:推荐5个销售额最高的类目,并为每个类目推荐一个销售额最高的商品,而我们的数据就是上述RDD[(String, String, String)类型的goodsSaleSum。这需要两步,一是计算每个类目的销售额,这和举的第一个例子一样。二是找出每个类目下销量最高的商品,这和第二个例子一样。实际上,我们可以只实用一个reduceByKey就达到上面的目的。

val catIdGmvTopGoods = goodsSaleSum.map(x => (x._1, (x._2, x._3, x._3))) .reduceByKey((x, y) => if (x._2 > y._2) (x._1, x._2, x._3+y._3) else (y._1, y._2, x._3+y._3)) .map( x => (x._1, x._2._1, x._2._2, x._2._3).sortBy(_._3, false).take()

由于我们需要计算每个类目的总销售额,同时需要保留商品的销售额,所以先使用map增加一个字段用来记录类目的总销售额。这样一来,我们就可以使用reduceByKey同时完成前两个例子的操作。剩下的就是进行排序并获取前5条记录。

3. 聚合方式举例

上述的三个例子都是只保留需要的信息,但有时我们需要将value聚合在一起进行排序操作,比如对每个类目下的商品按销售额进行排序。假设我们的数据是 RDD[(String, String, String)],三个字段分别是类目id、goodsid、销售额。若是使用sql,那我们直接用row_number函数就可以很简单的使用分类目排序这个任务。但由于spark-sql占用的资源会比RDD多不少,在开发任务时并不建议使用spark-sql。我们的方法是通过reduceByKey把商品聚合成一个List,然后对这个List进行排序,再使用flatMapValues摊平数据。我们在使用reduceyByKey时会注意到,两个value聚合后的数据类型必须和之前一致。所以在聚合商品时我们也需要保证这点,通常有两种方法,一是使用ListBuffer,即可变长度的List。二是使用String,以分隔符来区分商品和销售额。下面我们使用第一种方式完成这个任务。

val catIdGoodsIdSorted = goodsGmvSum.map(x => (x._1, ListBuffer(x._2, x._3.toDouble))) .reduceByKey((x, y) => x++y).flatMapValues( x => x.toList.sortBy(_._2).reverse.zipWithIndex)

上述zipWithIndex给列表增加一个字段,用来记录元素的位置信息。而flatMapValues可以把List的每个元素单独拆成一条记录

4. 总结

本文中介绍了reduceByKey的三种作用:

  1. 求和汇总

  2. 获得每个key下value最大的记录

  3. 聚合value形成一个List之后进行排序

转自: https://www.jianshu.com/p/af175e66ce99

Spark学习之常用算子介绍的更多相关文章

  1. spark学习(10)-RDD的介绍和常用算子

    RDD(弹性分布式数据集,里面并不存储真正要计算的数据,你对RDD的操作,他会在Driver端转换成Task,下发到Executor计算分散在多台集群上的数据) RDD是一个代理,你对代理进行操作,他 ...

  2. spark 学习_rdd常用操作

    [spark API 函数讲解 详细 ]https://www.iteblog.com/archives/1399#reduceByKey [重要API接口,全面 ] http://spark.apa ...

  3. Spark中的常用算子

    更多有用的例子和算子讲解参见: http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html map是对每个元素操作, ma ...

  4. Spark学习进度-Transformation算子

    Transformation算子 intersection 交集 /* 交集 */ @Test def intersection(): Unit ={ val rdd1=sc.parallelize( ...

  5. Spark RDD算子介绍

    Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...

  6. spark算子介绍

    1.spark的算子分为转换算子和Action算子,Action算子将形成一个job,转换算子RDD转换成另一个RDD,或者将文件系统的数据转换成一个RDD 2.Spark的算子介绍地址:http:/ ...

  7. spark常用算子总结

    算子分为value-transform, key-value-transform, action三种.f是输入给算子的函数,比如lambda x: x**2 常用算子: keys: 取pair rdd ...

  8. 学习游戏服务器开发必看,C++游戏服务器开发常用工具介绍

    C++游戏服务器开发常用工具介绍 在软件开发过程中需要使用的工具类型实属众多,从需求建模到软件测试,从代码编译到工程管理,这些工具都对项目有着不可替代的作用.庄子有云,"吾生也有涯,而知也无 ...

  9. Spark—RDD编程常用转换算子代码实例

    Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U]  ...

随机推荐

  1. centos安装谷歌浏览器

    第一步: 切换到root权限 su root 或者 sudo -i 第二步: 下载新的软件源: 进入到 cd /etc/yum.repos.d 然后 wget http://people.centos ...

  2. snmpwalk命令

    使用该命令需提前安装好net-snmp*rpm相关包 语法: snmpwalk -v 1或2(代表SNMP版本) -c SNMP读密码 IP地址 OID(对象标示符) (1) -v: 指定snmp的版 ...

  3. hdu1003 Max Sum(最大子串)

    https://vjudge.net/problem/HDU-1003 注意考虑如果全为负的情况,特判. 还有输出格式,最后一个输出不用再空行. #include<iostream> #i ...

  4. linux > 和 >> 、< 区别

    linux中经常会用到将内容输出到某文件当中,只需要在执行命令后面加上>或者>>号即可进入操作. 大于号:将一条命令执行结果(标准输出,或者错误输出,本来都要打印到屏幕上面的)重定向 ...

  5. Win server 2012 +IIS8.0下安装SSL证书

    SSL证书的申请: 成功在景安申请证书后,会得到一个有密码的压缩包文件,输入证书密码后解压得到五个文件:for Apache.for IIS.for Ngnix.for Other Server,这个 ...

  6. 完善mui的tap及longtap点击效果

    以下为原版效果: 以下为我们改版的效果: 希望你们能看出差别,很细小,但更适合我们的需要.就是选中背景色的问题,官方的是点一下背景色就没有了,我们的是选中一直存在.

  7. 最课程阶段大作业06:U度节能平台控制系统

    除了互联网项目,当今社会还有一个概念非常流行,那就是:物联网.什么是物联网?物联网是通过传感设备,按约定的协议,把任意物品与互联网相连接,进行信息交换和通信,以实现智能化识别.定位.跟踪.监控和管理的 ...

  8. IntelliJ IDEA 下载安装(含注册码)

    https://blog.csdn.net/mashuai720/article/details/79389314

  9. ESP-EYE V2.1 开发板 WINDOWS 10 开发入门

    准备工作 1 × ESP-EYE V2.1 开发板 1 × Micro USB B 电缆 1 × PC(Windows10) 简介 ESP-EYE 是一款面向人脸识别和语音识别市场的开发板,搭载 ES ...

  10. system generator学习笔记【01】

    作者:桂. 时间:2018-05-18  18:26:50 链接:http://www.cnblogs.com/xingshansi/p/9045914.html 前言 学习使用system gene ...