spark aggregate算子

spark aggregate源代码

  /**

   * Aggregate the elements of each partition, and then the results for all the partitions, using

   * given combine functions and a neutral "zero value". This function can return a different result

   * type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U

   * and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions are

   * allowed to modify and return their first argument instead of creating a new U to avoid memory

   * allocation.

   */

  def aggregate[U](zeroValue: U)(seqOp: JFunction2[U, T, U],

    combOp: JFunction2[U, U, U]): U =

    rdd.aggregate(zeroValue)(seqOp, combOp)(fakeClassTag[U])

aggregate用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，
再使用combOp将之前每个分区聚合后的U类型聚合成U类型，注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U。

样例代码：

需要注意的是：

单分区和多分区是不一样的。

        List<Integer> list = new ArrayList<>();

        list.add(2);

        list.add(3);

        list.add(2);

        list.add(5);

        list.add(2);

        list.add(6);

        //单分区情况下

        JavaRDD<Integer> rdd1 = sc.parallelize(list,1);

        System.out.println("NumPartitions :"+rdd1.getNumPartitions());

        int result1 = rdd1.aggregate(1, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;//等同于zeroValue*2得到的值再*3...同理得到的值再*2*5*2*6等于720

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;//等同于zeroValue+前面函数得到的值，也就是1+720=721

            }

        });

        System.out.println("result1: "+result1);

        //多分区情况下

        JavaRDD<Integer> rdd2 = sc.parallelize(list,2);

        System.out.println("NumPartitions :"+rdd2.getNumPartitions());

        JavaRDD<String> mapPartitionsWithIndex = rdd2.mapPartitionsWithIndex(new Function2<Integer, Iterator<Integer>, Iterator<String>>() {

            @Override

            public Iterator<String> call(Integer part_id, Iterator<Integer> iterator) throws Exception {

                List<String> list = new ArrayList<>();

                while (iterator.hasNext()) {

                    list.add("partition" + part_id + ":" + iterator.next());

                }

                return list.iterator();

            }

        }, true);

        mapPartitionsWithIndex.foreachPartition((VoidFunction<Iterator<String>>) iterator -> {

            while (iterator.hasNext()) {

                System.out.println(iterator.next());

            }

        });

        //输出结果：

//        partition0:2

//        partition0:3

//        partition0:2

//        partition1:5

//        partition1:2

//        partition1:6

        int result2 = rdd2.aggregate(2, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;

                //这次修改zeroValue为2

                //partition0中的元素有2,3,2 计算结果是2*2*3*2=24 其中2指zeroValue

                //partition0中的元素有5,2,6 计算结果是2*5*2*6=120 其中2指zeroValue

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

                //计算结果2+24+120=146，其中2指zeroValue

            }

        });

        System.out.println("result2: "+result2);

spark aggregate算子的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...
Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...
列举spark所有算子
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...
java实现spark常用算子之groupbykey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
[大数据之Spark]——Actions算子操作入门实例
Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two ar ...
spark aggregate函数详解
aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法. 1.先看看aggregate的函数签名在spark的 ...

随机推荐

吴裕雄 Bootstrap 前端框架开发——Bootstrap 排版：设定引用右对齐
<!DOCTYPE html> <html> <head> <title>菜鸟教程(runoob.com)</title> <meta ...
python学习第一课
第一课: 1.不要使用来路不明的软件 2.下载杀毒软件 3.不懂技术的人在技术人面前会显得愈发无知 4.python无所不能需要掌握的知识: 1.python基本语法 2.文件处理 3.函数 4.模 ...
ORACLE 判断首字母大小写问题
1.对判断的字段进行拆分 select substr(要区分的字段,0,1) from 表 : 得到一个首字母 2.对这个字符进行大小写判断查出以小写字符为开头的 select substr ...
Linux系统下安装python3.7.3环境
这里用到的Linux系统是centos7系统,centos7是自带py的但是py的2.7.5版本连接服务器的使用的是SSH Secure shell 1.首先安装依赖包 1)安装gcc编译器 gcc ...
free to monitor your sqlserver easy and safe and ...
Unlike AWR in Oracle, Sqlserver does not have offical way to make history performance information fo ...
Outlook 2013 您的组织策略阻止我们为您完成此操作... 解决方法
问题:点击outlook超链接,弹出“您的组织策略阻止我们为您完成此操作”的提示,无法打开链接. 环境 OS: Win10 专业版x64bit Outlook: 2013 浏览器:搜狗浏览器解决办法 ...
Swift-关于Swift编程语言
一.首先让我们看看苹果公司是怎么描述自己的Swift的: Swift 是编写程序的绝佳选择,无论是手机.电脑还是服务器,任何能跑代码的设备都是如此.它是一门集现代语言之大成,集结了苹果的工程师文化精髓 ...
java比较器Comparator
1. 实现比较类 public class Comparator implements java.util.Comparator<TaskInfo>{ @Override public i ...
吴裕雄--天生自然MySQL学习笔记：MySQL 安装
所有平台的 MySQL 下载地址为: MySQL 下载:https://dev.mysql.com/downloads/mysql/ 注意:安装过程我们需要通过开启管理员权限来安装,否则会由于权限不足 ...
微软结合Veritas，使用Azure云中的混合存储
导读在与Symantec(Symantec)脱离10年(通常令人不愉快的关系)一周年之际,Veritas Technologies在2月22日宣布与Microsoft Corp. 建立了多年战略全球 ...

spark aggregate算子

spark aggregate算子的更多相关文章

随机推荐

热门专题