Spark中groupByKey、reduceByKey与sortByKey

groupByKey把相同的key的数据分组到一个集合序列当中：

[("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [("hello",(1,1,1)),("word",(1,1)),("fly",(1))]

reduceByKey把相同的key的数据聚合到一起并进行相应的计算：

[("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] add--> [("hello",3）,("word",2),("fly",1)]

sortByKey按key的大小排序，默认为升序排序：

[(3,"hello"）,(2,"word"),(1,"fly")] --> [(1,"fly")，(2,"word")，(3,"hello")]

groupByKey、reduceByKey及sortByKey的比较：

from pyspark import SparkConf, SparkContext

from operator import add

conf = SparkConf()

sc = SparkContext(conf=conf)

def func_by_key():

    data = [

        "hello world", "hello fly", "hello world",

        "hello fly", "hello fly", "hello fly"

    ]

    data_rdd = sc.parallelize(data)

    word_rdd = data_rdd.flatMap(lambda s: s.split(" ")).map(lambda x: (x, 1))

    group_by_key_rdd = word_rdd.groupByKey()

    print("groupByKey:{}".format(group_by_key_rdd.mapValues(list).collect()))

    print("groupByKey mapValues(len):{}".format(

        group_by_key_rdd.mapValues(len).collect()

    ))

    reduce_by_key_rdd = word_rdd.reduceByKey(add)

    print("reduceByKey:{}".format(reduce_by_key_rdd.collect()))

    print("sortByKey:{}".format(reduce_by_key_rdd.map(

        lambda x: (x[1], x[0])

    ).sortByKey().map(lambda x: (x[0], x[1])).collect()))

func_by_key()

sc.stop()

"""

result：

groupByKey:[('fly', [1, 1, 1, 1]), ('world', [1, 1]), ('hello', [1, 1, 1, 1, 1, 1])]
groupByKey mapValues(len):[('fly', 4), ('world', 2), ('hello', 6)]
reduceByKey:[('fly', 4), ('world', 2), ('hello', 6)]
sortByKey:[(2, 'world'), (4, 'fly'), (6, 'hello')]

"""

从结果可以看出，groupByKey对分组后的每个key的value做mapValues(len)后的结果与reduceByKey的结果一致，即：如果分组后要对每一个key所对应的值进行操作则应直接用reduceByKey；sortByKey是按key排序，如果要对value排序，可以交换key与value的位置，再排序。

Spark中groupByKey、reduceByKey与sortByKey的更多相关文章

Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点
避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("on ...
[Spark RDD_add_1] groupByKey & reduceBykey 的区别
[groupByKey & reduceBykey 的区别] 在都能实现相同功能的情况下优先使用 reduceBykey Combine 是为了减少网络负载 1. groupByKey 是没有 ...
spark中groupByKey与reducByKey
[译]避免使用GroupByKey Scala Spark 技术 by:leotse 原文:Avoid GroupByKey 译文让我们来看两个wordcount的例子,一个使用了reduceB ...
（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark
groupByKey,reduceByKey,sortByKey算子视频教程: 1.优酷 2. YouTube 1.groupByKey groupByKey是对每个key进行合并操作,但只生成一个 ...
在Spark中尽量少使用GroupByKey函数（转）
原文链接:在Spark中尽量少使用GroupByKey函数为什么建议尽量在Spark中少用GroupByKey,让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用reduceByKey ...
Spark 学习笔记之 distinct/groupByKey/reduceByKey
distinct/groupByKey/reduceByKey: distinct: import org.apache.spark.SparkContext import org.apache.sp ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...

随机推荐

Django 自定义模型管理器类2个应用场景
class BookManager(models.Manager): # 改变查询集的结果集 def all(self): books = super().all() # QuerySet books ...
如何快速定位找出SEGV内存错误的程序Bug
通过查看php日志/usr/local/php/var/log/php-fpm.log,有如下警告信息: [16-Mar-2015 16:03:09] WARNING: [pool www] chil ...
Winform中的TextBox的小技巧
1 一些常用属性this.textBox5.PasswordChar = '@'; //密码的样式 this.textBox5.UseSystemPasswordChar = ...
oracle导出序列的几种办法
oracle导出序列的几种办法注:本文来源于<oracle导出序列的几种办法> 方法一: select 'create sequence ' ||sequence_name|| ' mi ...
Confluence 6 修改站点标题
站点标题是在浏览器的标题栏中显示的.在默认的情况下,标题被显示为 Confluence. 希望修改你站点的标题: 在屏幕的右上角单击控制台按钮 ,然后选择 General Configuration ...
mongoDB基础使用
环境交代操作系统: CentOS 6.8 64位 mongodb: 4.06 安装官方下载地址:https://www.mongodb.org/dl/linux/x86_64-rhel62 阿里云 ...
Vue.extend和Vue.component的联系与差异
extend 是构造一个组件的语法器. 你给它参数他给你一个组件然后这个组件你可以作用到Vue.component 这个全局注册方法里, 也可以在任意vue模板里使用apple组件 var ap ...
第九单元利用vi编辑器创建和编辑正文文件
vi编辑器简介什么是vi vi编辑器的操作模式 vi编辑器的3种基本模式在vi编辑器中光标的移动移动光标位置的键与光标移动间的关系进入插入模式从命令行模式进入插入模式的命令在命令行模式下 ...
React基础知识备忘
section-1 //react组件 export class Halo extends React.Component{ constructor(...args){ super(...args); ...
BeautifulSoup的基本用法
# -*- coding:UTF-8 -*- from urllib import request from bs4 import BeautifulSoup import re import sys ...

Spark中groupByKey、reduceByKey与sortByKey

Spark中groupByKey、reduceByKey与sortByKey的更多相关文章

随机推荐

热门专题