spark aggregate算子

spark aggregate源代码

  /**

   * Aggregate the elements of each partition, and then the results for all the partitions, using

   * given combine functions and a neutral "zero value". This function can return a different result

   * type, U, than the type of this RDD, T. Thus, we need one operation for merging a T into an U

   * and one operation for merging two U's, as in scala.TraversableOnce. Both of these functions are

   * allowed to modify and return their first argument instead of creating a new U to avoid memory

   * allocation.

   */

  def aggregate[U](zeroValue: U)(seqOp: JFunction2[U, T, U],

    combOp: JFunction2[U, U, U]): U =

    rdd.aggregate(zeroValue)(seqOp, combOp)(fakeClassTag[U])

aggregate用于聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，
再使用combOp将之前每个分区聚合后的U类型聚合成U类型，注意seqOp和combOp都会使用zeroValue的值，zeroValue的类型为U。

样例代码：

需要注意的是：

单分区和多分区是不一样的。

        List<Integer> list = new ArrayList<>();

        list.add(2);

        list.add(3);

        list.add(2);

        list.add(5);

        list.add(2);

        list.add(6);

        //单分区情况下

        JavaRDD<Integer> rdd1 = sc.parallelize(list,1);

        System.out.println("NumPartitions :"+rdd1.getNumPartitions());

        int result1 = rdd1.aggregate(1, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;//等同于zeroValue*2得到的值再*3...同理得到的值再*2*5*2*6等于720

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;//等同于zeroValue+前面函数得到的值，也就是1+720=721

            }

        });

        System.out.println("result1: "+result1);

        //多分区情况下

        JavaRDD<Integer> rdd2 = sc.parallelize(list,2);

        System.out.println("NumPartitions :"+rdd2.getNumPartitions());

        JavaRDD<String> mapPartitionsWithIndex = rdd2.mapPartitionsWithIndex(new Function2<Integer, Iterator<Integer>, Iterator<String>>() {

            @Override

            public Iterator<String> call(Integer part_id, Iterator<Integer> iterator) throws Exception {

                List<String> list = new ArrayList<>();

                while (iterator.hasNext()) {

                    list.add("partition" + part_id + ":" + iterator.next());

                }

                return list.iterator();

            }

        }, true);

        mapPartitionsWithIndex.foreachPartition((VoidFunction<Iterator<String>>) iterator -> {

            while (iterator.hasNext()) {

                System.out.println(iterator.next());

            }

        });

        //输出结果：

//        partition0:2

//        partition0:3

//        partition0:2

//        partition1:5

//        partition1:2

//        partition1:6

        int result2 = rdd2.aggregate(2, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 * v2;

                //这次修改zeroValue为2

                //partition0中的元素有2,3,2 计算结果是2*2*3*2=24 其中2指zeroValue

                //partition0中的元素有5,2,6 计算结果是2*5*2*6=120 其中2指zeroValue

            }

        }, new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

                //计算结果2+24+120=146，其中2指zeroValue

            }

        });

        System.out.println("result2: "+result2);

spark aggregate算子的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...
Spark RDD算子介绍
Spark学习笔记总结 01. Spark基础 1. 介绍 Spark可以用于批处理.交互式查询(Spark SQL).实时流处理(Spark Streaming).机器学习(Spark MLlib) ...
列举spark所有算子
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...
java实现spark常用算子之groupbykey
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
[大数据之Spark]——Actions算子操作入门实例
Actions reduce(func) Aggregate the elements of the dataset using a function func (which takes two ar ...
spark aggregate函数详解
aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法. 1.先看看aggregate的函数签名在spark的 ...

随机推荐

WebService-CXF 学习笔记
什么是CXF Apache CXF = Celtix + Xfire支持多种协议:SOAP1.1,1.2XML/HTTPCORBA(Common Object Request Broker Archi ...
常见Linux发行版有哪些？
Linux 发行版(英语:Linux distribution,也被叫做GNU/Linux 发行版),为一般用户预先集成好的Linux操作系统及各种应用软件.一般用户不需要重新编译,在直接安装之后,只 ...
uniapp - 导航切换（样式）
<view class="text-area" v-for="(menu,i) in menus" :key="i" v-show=& ...
idea右键新建选项没有类和包的创建方式
Intelidea创建好项目之后,右键新建Java class的时候发现没有改选项,只有以下几个选项把sec目录设为源码目录,首先打开Project Structure
A easy and simple way to establish Oracle ADG
Yes, thanks to Then, I can give simple and reasy way to make it. Suppose hosts and IPs like that: 15 ...
webpack配置文件里loader的执行顺序：从下到上，从右到左; css-loader开启css模块化modules: true,
注释: options:{ importLoaders: 2 } 解决样式文件里使用@import 'xxx.xxx' 的问题 module: { rules: [{ test: /\.scss$/, ...
centos6.5安装图形操作界面
yum -y install xorg-x11-fonts-Type1 #安装Xwindow yum -y groupinstall "X Window System" #安装GN ...
解决Missing artifact com.microsoft.sqlserver:sqljdbc4:jar:4.0问题
当我们项目中用到的数据库为sql server时我们一般在maven项目的pom.xml只添加依赖: <dependency> <groupId>com.micros ...
集合set 1
集合只能通过set() 函数进行创建无序,不重复每个元素必须是可哈希的,不可变类型(不可变数据类型在第一次声明赋值声明的时候, 会在内存中开辟一块空间, 用来存放这个变量被赋的值, 而 ...
C++ 类构造函数 & 析构函数
前言: 析构函数和构造函数是一对.构造函数用于创建对象,而析构函数是用来撤销对象.简单的说:一个对象出生的时候,使用构造函数,死掉的时候,使用析构函数.构造函数和析构函数各有各的用途,在构造函数 ...

spark aggregate算子

spark aggregate算子的更多相关文章

随机推荐

热门专题