【Spark篇】---Spark中Action算子

一、前述

Action类算子也是一类算子（函数）叫做行动算子，如foreach,collect，count等。Transformations类算子是延迟执行，Action类算子是触发执行。一个application应用程序（就是我们编写的一个应用程序）中有几个Action类算子执行，就有几个job运行。

二、具体

原始数据集：

1、count

返回数据集中的元素数。会在结果计算完成后回收到Driver端。返回行数

package com.spark.spark.actions;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

/**

 * count

 * 返回结果集中的元素数，会将结果回收到Driver端。

 *

 */

public class Operator_count {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local");

        conf.setAppName("collect");

        JavaSparkContext jsc = new JavaSparkContext(conf);

        JavaRDD<String> lines = jsc.textFile("./words.txt");

        long count = lines.count();

        System.out.println(count);

        jsc.stop();

    }

}

结果：返回行数即元素数

2、take(n)

first=take(1) 返回数据集中的第一个元素。

返回一个包含数据集前n个元素的集合。是一个（array）有几个partiotion 会有几个job触发

package com.spark.spark.actions;

import java.util.Arrays;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

/**

 * take

 *

 * @author root

 *

 */

public class Operator_takeAndFirst {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local").setAppName("take");

        JavaSparkContext jsc = new JavaSparkContext(conf);

        JavaRDD<String> parallelize = jsc.parallelize(Arrays.asList("a","b","c","d"));

        List<String> take = parallelize.take(2);

        String first = parallelize.first();

        for(String s:take){

            System.out.println(s);

        }

        jsc.stop();

    }

}

结果：

3、foreach

循环遍历数据集中的每个元素，运行相应的逻辑。

4、collect

将计算结果回收到Driver端。当数据量很大时就不要回收了，会造成oom.

一般在使用过滤算子或者一些能返回少量数据集的算子后

package com.spark.spark.actions;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

/**

 * collect

 * 将计算的结果作为集合拉回到driver端，一般在使用过滤算子或者一些能返回少量数据集的算子后，将结果回收到Driver端打印显示。

 *

 */

public class Operator_collect {

    public static void main(String[] args) {

        /**

         * SparkConf对象中主要设置Spark运行的环境参数。

         * 1.运行模式

         * 2.设置Application name

         * 3.运行的资源需求

         */

        SparkConf conf = new SparkConf();

        conf.setMaster("local");

        conf.setAppName("collect");

        /**

         * JavaSparkContext对象是spark运行的上下文，是通往集群的唯一通道。

         */

        JavaSparkContext jsc = new JavaSparkContext(conf);

        JavaRDD<String> lines = jsc.textFile("./words.txt");

        JavaRDD<String> resultRDD = lines.filter(new Function<String, Boolean>() {

            /**

             *

             */

            private static final long serialVersionUID = 1L;

            @Override

            public Boolean call(String line) throws Exception {

                return !line.contains("hadoop");

            }

        });

        List<String> collect = resultRDD.collect();

        for(String s :collect){

            System.out.println(s);

        }

        jsc.stop();

    }

}

结果：

countByKey

作用到K,V格式的RDD上，根据Key计数相同Key的数据集元素。（也就是个数）

java代码：

package com.spark.spark.actions;

import java.util.Arrays;

import java.util.Map;

import java.util.Map.Entry;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;

/**

 * countByKey

 *

 * 作用到K,V格式的RDD上，根据Key计数相同Key的数据集元素。返回一个Map<K,Object>

 * @author root

 *

 */

public class Operator_countByKey {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local").setAppName("countByKey");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaPairRDD<Integer, String> parallelizePairs = sc.parallelizePairs(Arrays.asList(

                new Tuple2<Integer,String>(1,"a"),

                new Tuple2<Integer,String>(2,"b"),

                new Tuple2<Integer,String>(3,"c"),

                new Tuple2<Integer,String>(4,"d"),

                new Tuple2<Integer,String>(4,"e")

        ));

        Map<Integer, Object> countByKey = parallelizePairs.countByKey();

        for(Entry<Integer,Object>  entry : countByKey.entrySet()){

            System.out.println("key:"+entry.getKey()+"value:"+entry.getValue());

        }

    }

}

结果：

countByValue

根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

java代码：

package com.spark.spark.actions;

import java.util.Arrays;

import java.util.Map;

import java.util.Map.Entry;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import scala.Tuple2;

/**

 * countByValue

 * 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

 *

 * @author root

 *

 */

public class Operator_countByValue {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local").setAppName("countByKey");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaPairRDD<Integer, String> parallelizePairs = sc.parallelizePairs(Arrays.asList(

                new Tuple2<Integer,String>(1,"a"),

                new Tuple2<Integer,String>(2,"b"),

                new Tuple2<Integer,String>(2,"c"),

                new Tuple2<Integer,String>(3,"c"),

                new Tuple2<Integer,String>(4,"d"),

                new Tuple2<Integer,String>(4,"d")

        ));

        Map<Tuple2<Integer, String>, Long> countByValue = parallelizePairs.countByValue();

        for(Entry<Tuple2<Integer, String>, Long> entry : countByValue.entrySet()){

            System.out.println("key:"+entry.getKey()+",value:"+entry.getValue());

        }

    }

}

scala代码：

package com.bjsxt.spark.actions

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

/**

 * countByValue

 * 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。

 */

object Operator_countByValue {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.setMaster("local").setAppName("countByValue")

    val sc = new SparkContext(conf)

     val rdd1 = sc.makeRDD(List("a","a","b"))

    val rdd2 = rdd1.countByValue()

    rdd2.foreach(println)

    sc.stop()

  }

}

代码结果：

java：

scala:

reduce

根据聚合逻辑聚合数据集中的每个元素。（reduce里面需要具体的逻辑，根据里面的逻辑对相同分区的数据进行计算）

java代码：

package com.spark.spark.actions;

import java.util.Arrays;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function2;

/**

 * reduce

 *

 * 根据聚合逻辑聚合数据集中的每个元素。

 * @author root

 *

 */

public class Operator_reduce {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local").setAppName("reduce");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<Integer> parallelize = sc.parallelize(Arrays.asList(1,2,3,4,5));

        Integer reduceResult = parallelize.reduce(new Function2<Integer, Integer, Integer>() {

            /**

             *

             */

            private static final long serialVersionUID = 1L;

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1+v2;

            }

        });

        System.out.println(reduceResult);

        sc.stop();

    }

}

scala代码:

package com.bjsxt.spark.actions

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

/**

 * reduce

 *

 * 根据聚合逻辑聚合数据集中的每个元素。

 */

object Operator_reduce {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

    conf.setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(Array(1,2))

    val result = rdd1.reduce(_+_)

    println(result)

    sc.stop()

  }

}

结果：

java:

scala：

【Spark篇】---Spark中Action算子的更多相关文章

【Spark篇】---Spark中控制算子
一.前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存. 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化 ...
【Spark篇】---Spark中Transformations转换算子
一.前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行.action算子,立即执行,有一个action算子 ,就有一个job. 通俗些来说由RDD变成RDD就是Tra ...
Spark中的各种action算子操作（java版）
在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子.transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有 ...
【Spark篇】---SparkStreaming中算子中OutPutOperator类算子
一.前述 SparkStreaming中的算子分为两类,一类是Transformation类算子,一类是OutPutOperator类算子. Transformation类算子updateStateB ...
【Spark篇】---SparkStreaming算子操作transform和updateStateByKey
一.前述今天分享一篇SparkStreaming常用的算子transform和updateStateByKey. 可以通过transform算子,对Dstream做RDD到RDD的任意操作.其实就是 ...
关于spark RDD trans action算子、lineage、宽窄依赖详解
这篇文章想从spark当初设计时为何提出RDD概念,相对于hadoop,RDD真的能给spark带来何等优势.之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫在h ...
【Spark篇】---Spark中广播变量和累加器
一.前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量. 累机器相当于统筹大变量,常用于计数,统计. 二.具体原理 ...
Spark性能调优-RDD算子调优篇（深度好文，面试常问，建议收藏）
RDD算子调优不废话,直接进入正题! 1. RDD复用在对RDD进行算子时,要避免相同的算子和计算逻辑之下对RDD进行重复的计算,如下图所示: 对上图中的RDD计算架构进行修改,得到如下图所示的优 ...
【Spark】RDD操作具体解释4——Action算子
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行. 依据Action算子的输出空间将Action算子进行分类:无输出. HDFS. S ...

随机推荐

this指向及改变this指向的方法
一.函数的调用方式决定了 this 的指向不同,但总的原则,this指的是调用函数的那个对象: 1.普通函数调用,此时 this 指向全局对象window function fn() { conso ...
BP神经网络综合评价法
BP神经网络综合评价法是一种交互式的评价方法,一种既能避免人为计取权重的不精确性, 又能避免相关系数求解的复杂性,还能对数量较大且指标更多的实例进行综合评价的方法,它可以根据用户期望的输出不断修改指标 ...
SQL 获取表结构
select [表名]=c.Name, [表说明]=isnull(f.[value],''), [列序号]=a.Column_id, [列名]=a.Name, [列说明]=isnull(e.[valu ...
FFT Cheetsheet
参考资料 https://oi.men.ci/fft-notes/ 单位根(此类群均可) \(ω^0, ω^1, \dots, ω^{n-1}互不相同\) \(ω^k_n=ω^{2k}_{2n}\) ...
Unity3D 代码入口
最近有人提出一个unity一键导出html项目的设想,所以又回头看了一下unity 发现现在的untiy和我熟悉的有很大的不同了在看unity的 entity 系统时,注意到,这个系统的入口比较特殊 ...
Express安装
安装Express 安装好node.js的前提下,再来安装Express. 1.按win+rR,打开“运行”对话框,输入:“cmd”. 2.需要创建一个目录,然后进入目录并作为当前工作目录. mkdi ...
firewalld的基本使用
参考原文链接:https://www.cnblogs.com/moxiaoan/p/5683743.html 1.firewalld的基本使用启动: systemctl start firewall ...
关于docker jenkins启动时失败的问题处理
最近在做持续集成,然后使用docker 运行jenkins docker run -d -p 8088:8080 -p 50000:50000 -v /home/docker/jenkins_hom ...
五、JAVA反射、线程
第五节:Java反射.线程线程 1.进程:进程是程序的基本执行实体,进程是线程的容器. 线程:被称为轻量进程,是程序执行流的最小单元.线程是进程中的一个实 ...
使用自建Git服务器管理私有项目 Centos 7.3 + Git 2.11.0 + gitosis (实测笔记)
环境: 系统硬件:vmware vsphere (CPU:2*4核,内存2G,双网卡) 系统版本:CentOS-7-x86_64-Minimal-1611.iso GIT服务器IP:192.168.1 ...

【Spark篇】---Spark中Action算子

【Spark篇】---Spark中Action算子的更多相关文章

随机推荐

热门专题