Spark练习之action操作开发

一、reduce

1.1 Java
1.2 Scala

二、collect

2.1 Java
2.2 Scala

三、count

3.1 Java
3.2 Scala

四、take

4.1 Java
4.2 Scala

五、saveAsTextFile

5.1 Java

六、countByKey

6.1 Java
6.2 Scala

七、foreach
八、main函数

8.1 Java
8.2 Scala

一、reduce

1.1 Java

 private static void reduce() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("reduce")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用reduce操作对集合中的数字进行累加

        //reduce操作的原理：

        //将第一个和第二个元素，传入call（）方法，进行计算，会获取一个结果

        //接着将该结果与下一个元素传入call()方法，进行计算

        //以此类推

        //reduce操作的本质：就是聚合，将多个元素聚合成一个元素

        int sum = numberRDD.reduce(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        System.out.println(sum);

        //关闭JavaSparkContext

        sc.close();

    }

1.2 Scala

def reduce(): Unit = {

    val conf = new SparkConf().setAppName("reduce").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val numbers = numberRDD.reduce(_ + _)

    println(numbers)

  }

二、collect

2.1 Java

private static void collect() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("collect")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用map操作将集合中所有数字乘以2

        JavaRDD<Integer> doubleNumbers = numberRDD.map(new Function<Integer, Integer>() {

            @Override

            public Integer call(Integer v1) throws Exception {

                return v1 * 2;

            }

        });

        //不用foreach action操作，在远程集群上遍历RDD中的元素

        //使用collect操作，将分布在远程集群上的doubleNumber RDD的数据拉取到本地

        //这种方式，一般不建议使用，因为如果RDD中的数据量笔记大，比如过万条

        //性能会比较差，因为要从远程走大量的网络传输，将数据获取到本地

        //此外，还可能在RDD中数据量特别大的情况下，发生oom异常，内存溢出

        //因此，通常还是使用foreach action操作，来对最终的元素进行处理

        List<Integer> doubleNumberList = doubleNumbers.collect();

        for (Integer num : doubleNumberList) {

            System.out.println(num);

        }

        //关闭JavaSparkContext

        sc.close();

    }

2.2 Scala

def collect(): Unit = {

    val conf = new SparkConf().setAppName("collect").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val numbers = numberRDD.map(num => num * 2)

    val doubleNumberArray = numbers.collect()

    for (num <- doubleNumberArray) {

      println(num)

    }

  }

三、count

3.1 Java

private static void count() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("count")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //对RDD使用count操作，统计它有多少个元素

        long count = numberRDD.count();

        System.out.println(count);

        //关闭JavaSparkContext

        sc.close();

    }

3.2 Scala

def count(): Unit = {

    val conf = new SparkConf().setAppName("count").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val count = numberRDD.count()

    println(count)

  }

四、take

4.1 Java

private static void take() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("take")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //对RDD使用take操作

        //take与collect类似，从远程集群上，获取RDD数据

        //collect是获取RDD的所有数据，take知识获取前n个数据

        List<Integer> top3Numbers = numberRDD.take(3);

        for (Integer num : top3Numbers) {

            System.out.println(num);

        }

        //关闭JavaSparkContext

        sc.close();

    }

4.2 Scala

def take(): Unit = {

    val conf = new SparkConf().setAppName("take").setMaster("local")

    val sc = new SparkContext(conf)

    val numbersArray = Array(1, 2, 3, 4, 5, 6, 7, 8)

    val numberRDD = sc.parallelize(numbersArray, 1)

    val doubleNumberArray = numberRDD.take(3)

    for (num <- doubleNumberArray) {

      println(num)

    }

  }

五、saveAsTextFile

5.1 Java

private static void saveAsTextFile() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("saveAsTextFile")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);

        //并行化集合，创建初始RDD

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        //使用map操作将集合中所有数字乘以2

        JavaRDD<Integer> doubleNumbers = numberRDD.map(new Function<Integer, Integer>() {

            @Override

            public Integer call(Integer v1) throws Exception {

                return v1 * 2;

            }

        });

        //直接将RDD中的数据，保存在文件中

        doubleNumbers.saveAsTextFile("");

        //关闭JavaSparkContext

        sc.close();

    }

六、countByKey

6.1 Java

private static void countByKey() {

        //创建SparkConf

        SparkConf conf = new SparkConf()

                .setAppName("countByKey")

                .setMaster("local");

        //创建JavaSparkContext

        JavaSparkContext sc = new JavaSparkContext(conf);

        //构造集合

        List<Tuple2<String, String>> scoresList = Arrays.asList(

                new Tuple2<>("class1", "tom"),

                new Tuple2<>("class2", "jack"),

                new Tuple2<>("class1", "leo"),

                new Tuple2<>("class2", "marry"));

        //并行化集合，创建JavaPairRDD

        JavaPairRDD<String, String> students = sc.<String, String>parallelizePairs(scoresList);

        //对RDD应用countByKey操作，统计每个班级的学生人数，就是统计每个key对应的元素个数

        //countByKey返回的类型，直接就是Map<String,Object>

        Map<String, Long> studentCounts = students.countByKey();

        for (Map.Entry<String, Long> studentCount : studentCounts.entrySet()) {

            System.out.println(studentCount.getKey() + "：" + studentCount.getValue());

        }

        //关闭JavaSparkContext

        sc.close();

    }

6.2 Scala

def countByKey(): Unit = {

    val conf = new SparkConf().setAppName("countByKey").setMaster("local")

    val sc = new SparkContext(conf)

    val studentList = Array(new Tuple2[String, String]("class1", "aaa"),

      new Tuple2[String, String]("class2", "mack"),

      new Tuple2[String, String]("class1", "tom"),

      new Tuple2[String, String]("class2", "pos"))

    val scores = sc.parallelize(studentList, 1)

    val students = scores.countByKey()

    println(students)

  }

七、foreach

八、main函数

8.1 Java

public static void main(String[] args) {

        //reduce();

        //collect();

        //count();

        //take();

        //saveAsTextFile();

        countByKey();

    }

8.2 Scala

  def main(args: Array[String]): Unit = {

    //reduce()

    //collect()

    //count()

    //take()

    countByKey()

  }

Spark练习之action操作开发的更多相关文章

Spark练习之Transformation操作开发
Spark练习之Transformation操作开发一.map:将集合中的每个元素乘以2 1.1 Java 1.2 Scala 二.filter:过滤出集合中的偶数 2.1 Java 2.2 Sca ...
spark transformation与action操作函数
一.Transformation map(func) 返回一个新的分布式数据集,由每个原元素经过函数处理后的新元素组成 filter(func) 返回一个新的数据集,经过fun函数处理后返回值为tru ...
06、action操作开发实战
1.reduce: 2.collect: 3.count: 4.take: 5.saveAsTextFile: 6.countByKey: 7.foreach: package sparkcore.j ...
Spark常用函数讲解之Action操作
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Trans ...
Spark RDD概念学习系列之Pair RDD的action操作
不多说,直接上干货! Pair RDD的action操作所有基础RDD 支持的行动操作也都在pair RDD 上可用
Spark RDD概念学习系列之action操作
不多说,直接上干货! action操作
spark 学习_rdd常用操作
[spark API 函数讲解详细 ]https://www.iteblog.com/archives/1399#reduceByKey [重要API接口,全面 ] http://spark.apa ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...

随机推荐

CentOs 7 安装mysql5.7.18（二进制版本）
1.下载二进制版本安装包.搜狐开源镜像站:http://mirrors.sohu.com/mysql/MySQL-5.7/ , 找 mysql-5.7.18-linux-glibc2.5-x86_ ...
记录一次 Nginx 配置 proxy_pass 后返回404问题
一. Nginx 配置 proxy_pass 后返回404问题故障解决和定位 1.1. 问题在一次生产涉及多次转发的配置中, 需求是下面的图: 在配置好了 proxy_pass 之后,请求 ww ...
Miller Rabin素数检测与Pollard Rho算法
一些前置知识可以看一下我的联赛前数学知识如何判断一个数是否为质数方法一:试除法扫描\(2\sim \sqrt{n}\)之间的所有整数,依次检查它们能否整除\(n\),若都不能整除,则\(n\)是 ...
Apache伪静态(Rewrite).htaccess文件详解
Htaccess(超文本访问)是一个简单的配置文件,它允许设计师,开发者和程序员通过它来改变Apache Web服务器的配置.这些功能包括用户重定向.URL重写(url rewrite,国内很多称为伪 ...
风炫安全web安全学习第三十四节课文件包含漏洞防御
风炫安全web安全学习第三十四节课文件包含漏洞防御文件包含防御在功能设计上不要把文件包含的对应文件放到前台去操作过滤各种../,https://, http:// 配置php.ini文件 al ...
Spring--AOP、通知的执行顺序
AOP执行顺序如果我们在同一个方法自定义多个AOP,我们如何指定他们的执行顺序呢? 可以通过指定order,order越小越是最先执行. 配置AOP执行顺序的三种方式: 通过实现Ordered接口 ...
“==”和equals的区别
区别: (1)比较基本数据类型时只能采用"==",比较的是数值; (2)当比较引用数据类型时 "==" 比较的是引用对象的内存地址; 而equals分两种情况 ...
在Docker下进行MyCAT管理双主双从MySQL集群
前言在Docker下双主双从MySQL集群模拟 https://www.cnblogs.com/yumq/p/14259964.html 本文实验配置文件 Docker拉取MyCAT镜像如果没启动 ...
写给小白看的Mysql事务
1 为什么需要事务在网上的很多资料里,其实没有很好的解释为什么我们需要事务.其实我们去学习一个东西之前,还是应该了解清楚这个东西为什么有用,硬生生的去记住事务的ACID特性.各种隔离级别个人认为没有 ...
Docker一秒进阶
tar包: 从tar包导入:docker load < xxxx.tar docker run -d -p 8080:80 --name [名字] -v `pwd`:/usr/share/ngi ...

Spark练习之action操作开发

Spark练习之action操作开发

一、reduce

1.1 Java

1.2 Scala

二、collect

2.1 Java

2.2 Scala

三、count

3.1 Java

3.2 Scala

四、take

4.1 Java

4.2 Scala

五、saveAsTextFile

5.1 Java

六、countByKey

6.1 Java

6.2 Scala

七、foreach

八、main函数

8.1 Java

8.2 Scala

Spark练习之action操作开发的更多相关文章

随机推荐

热门专题