Spark练习之action操作开发

一、reduce

1.1 Java
1.2 Scala

二、collect

2.1 Java
2.2 Scala

三、count

3.1 Java
3.2 Scala

四、take

4.1 Java
4.2 Scala

五、saveAsTextFile

5.1 Java

六、countByKey

6.1 Java
6.2 Scala

七、foreach
八、main函数

8.1 Java
8.2 Scala

一、reduce

1.1 Java

 private static void reduce() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("reduce")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用reduce操作对集合中的数字进行累加

        //reduce操作的原理：

        //将第一个和第二个元素，传入call（）方法，进行计算，会获取一个结果

        //接着将该结果与下一个元素传入call()方法，进行计算

        //以此类推

        //reduce操作的本质：就是聚合，将多个元素聚合成一个元素

        int sum = numberRDD.reduce(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        System.out.println(sum);

        //关闭JavaSparkContext

        sc.close();

    }

1.2 Scala

def reduce(): Unit = {

    val conf = new SparkConf().setAppName("reduce").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val numbers = numberRDD.reduce(_ + _)

    println(numbers)

  }

二、collect

2.1 Java

private static void collect() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("collect")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用map操作将集合中所有数字乘以2

        JavaRDD<Integer> doubleNumbers = numberRDD.map(new Function<Integer, Integer>() {

            @Override

            public Integer call(Integer v1) throws Exception {

                return v1 * 2;

            }

        });

        //不用foreach action操作，在远程集群上遍历RDD中的元素

        //使用collect操作，将分布在远程集群上的doubleNumber RDD的数据拉取到本地

        //这种方式，一般不建议使用，因为如果RDD中的数据量笔记大，比如过万条

        //性能会比较差，因为要从远程走大量的网络传输，将数据获取到本地

        //此外，还可能在RDD中数据量特别大的情况下，发生oom异常，内存溢出

        //因此，通常还是使用foreach action操作，来对最终的元素进行处理

        List<Integer> doubleNumberList = doubleNumbers.collect();

        for (Integer num : doubleNumberList) {

            System.out.println(num);

        }

        //关闭JavaSparkContext

        sc.close();

    }

2.2 Scala

def collect(): Unit = {

    val conf = new SparkConf().setAppName("collect").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val numbers = numberRDD.map(num => num * 2)

    val doubleNumberArray = numbers.collect()

    for (num <- doubleNumberArray) {

      println(num)

    }

  }

三、count

3.1 Java

private static void count() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("count")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //对RDD使用count操作，统计它有多少个元素

        long count = numberRDD.count();

        System.out.println(count);

        //关闭JavaSparkContext

        sc.close();

    }

3.2 Scala

def count(): Unit = {

    val conf = new SparkConf().setAppName("count").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val count = numberRDD.count()

    println(count)

  }

四、take

4.1 Java

private static void take() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("take")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //对RDD使用take操作

        //take与collect类似，从远程集群上，获取RDD数据

        //collect是获取RDD的所有数据，take知识获取前n个数据

        List<Integer> top3Numbers = numberRDD.take(3);

        for (Integer num : top3Numbers) {

            System.out.println(num);

        }

        //关闭JavaSparkContext

        sc.close();

    }

4.2 Scala

def take(): Unit = {

    val conf = new SparkConf().setAppName("take").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val doubleNumberArray = numberRDD.take(3)

    for (num <- doubleNumberArray) {

      println(num)

    }

  }

五、saveAsTextFile

5.1 Java

private static void saveAsTextFile() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("saveAsTextFile")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用map操作将集合中所有数字乘以2

        JavaRDD<Integer> doubleNumbers = numberRDD.map(new Function<Integer, Integer>() {

            @Override

            public Integer call(Integer v1) throws Exception {

                return v1 * 2;

            }

        });

        //直接将RDD中的数据，保存在文件中

        doubleNumbers.saveAsTextFile("");

        //关闭JavaSparkContext

        sc.close();

    }

六、countByKey

6.1 Java

private static void countByKey() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("countByKey")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Tuple2<String, String>> scoresList = Arrays.asList(

                new Tuple2<>("class1", "tom"),

                new Tuple2<>("class2", "jack"),

                new Tuple2<>("class1", "leo"),

                new Tuple2<>("class2", "marry"));

        //并行化集合，创建JavaPairRDD

        JavaPairRDD<String, String> students = sc.<String, String>parallelizePairs(scoresList);

        //对RDD应用countByKey操作，统计每个班级的学生人数，就是统计每个key对应的元素个数

        //countByKey返回的类型，直接就是Map<String,Object>

        Map<String, Long> studentCounts = students.countByKey();

        for (Map.Entry<String, Long> studentCount : studentCounts.entrySet()) {

            System.out.println(studentCount.getKey() + "：" + studentCount.getValue());

        }

        //关闭JavaSparkContext

        sc.close();

    }

6.2 Scala

def countByKey(): Unit = {

    val conf = new SparkConf().setAppName("countByKey").setMaster("local")

    val sc = new SparkContext(conf)

    val studentList = Array(new Tuple2[String, String]("class1", "aaa"),

      new Tuple2[String, String]("class2", "mack"),

      new Tuple2[String, String]("class1", "tom"),

      new Tuple2[String, String]("class2", "pos"))

    val scores = sc.parallelize(studentList, 1)

    val students = scores.countByKey()

    println(students)

  }

七、foreach

八、main函数

8.1 Java

public static void main(String[] args) {

        //reduce();

        //collect();

        //count();

        //take();

        //saveAsTextFile();

        countByKey();

    }

8.2 Scala

  def main(args: Array[String]): Unit = {

    //reduce()

    //collect()

    //count()

    //take()

    countByKey()

  }

Spark练习之action操作开发的更多相关文章

Spark练习之Transformation操作开发
Spark练习之Transformation操作开发一.map:将集合中的每个元素乘以2 1.1 Java 1.2 Scala 二.filter:过滤出集合中的偶数 2.1 Java 2.2 Sca ...
spark transformation与action操作函数
一.Transformation map(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成 filter(func) 返回一个新的数据集,经过fun函数处理后返回值为tru ...
06、action操作开发实战
1.reduce: 2.collect: 3.count: 4.take: 5.saveAsTextFile: 6.countByKey: 7.foreach: package sparkcore.j ...
Spark常用函数讲解之Action操作
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Trans ...
Spark RDD概念学习系列之Pair RDD的action操作
不多说,直接上干货! Pair RDD的action操作所有基础RDD 支持的行动操作也都在pair RDD 上可用
Spark RDD概念学习系列之action操作
不多说,直接上干货! action操作
spark 学习_rdd常用操作
[spark API 函数讲解详细 ]https://www.iteblog.com/archives/1399#reduceByKey [重要API接口,全面 ] http://spark.apa ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...

随机推荐

Cookie和登录注册
1. 什么是Cookie? 服务器通过 Set-Cookie 头给客户端一串字符串客户端每次访问相同域名的网页时,必须带上这段字符串客户端要在一段时间内保存这个Cookie Cookie 默认在用 ...
Trick:如何去掉html标签点击时的蓝色边框
我们在用html标签时,如input.button.select,img标签时,点击标签经常出现一个蓝色的边框,这个边框真的很low,想要去掉怎么办其实,css有样式可以设置一下,这个问题就轻松 ...
Linux操作系统的文件目录结构
一 --- 导读首先记住一句经典的话:"linux世界中,万事万物皆为文件" 二---linux的目录结构示意图和windows下的目录结构示意图(本图需要背诵) 三---各目录 ...
U盘容量变小处理
参考: https://blog.csdn.net/weixin_39792252/article/details/80676300?utm_medium=distribute.pc_relevant ...
[ABP教程]第一章创建服务端
Web应用程序开发教程 - 第一章: 创建服务端关于本教程在本系列教程中, 你将构建一个名为 Acme.BookStore 的用于管理书籍及其作者列表的基于ABP的应用程序. 它是使用以下技术开发 ...
Scaled-YOLOv4 快速开始，训练自定义数据集
代码: https://github.com/ikuokuo/start-scaled-yolov4 Scaled-YOLOv4 代码: https://github.com/WongKinYiu/S ...
【C++】《C++ Primer 》第十一章
第十一章关联容器关联容器和顺序容器的不同:关联容器中的元素时按照关键字来保存和访问的. 关联容器支持通过关键字来高效地查找和读取元素,基本的关联容器类型是 map和 set. 类型 map 和 m ...
leetcode-222完全二叉树的节点个数
题目给出一个完全二叉树,求出该树的节点个数. 说明: 完全二叉树的定义如下:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干位置. ...
ArrayList源码解析--值得深读
ArrayList源码解析基于jdk1.8 ArrayList的定义类注释允许put null值,会自动扩容: size isEmpty.get.set.add等方法时间复杂度是O(1): 是非 ...
基于腾讯云存储网关 CSG 实现视频在线转码分发
一.背景随着越来越多的传统业务云化和云端业务发展,数据上云和云端数据处理领域的需求爆发式增长.腾讯云存储网关CSG提供一键部署开箱即用的便捷模式,深度结合COS对象存储生态,为用户提供方便快捷的数据 ...

Spark练习之action操作开发

Spark练习之action操作开发

一、reduce

1.1 Java

1.2 Scala

二、collect

2.1 Java

2.2 Scala

三、count

3.1 Java

3.2 Scala

四、take

4.1 Java

4.2 Scala

五、saveAsTextFile

5.1 Java

六、countByKey

6.1 Java

6.2 Scala

七、foreach

八、main函数

8.1 Java

8.2 Scala

Spark练习之action操作开发的更多相关文章

随机推荐

热门专题