[Spark Core] Spark 实现气温统计

0. 说明

　　聚合气温数据，聚合出 MAX 、 MIN 、 AVG

1. Spark Shell 实现

　　1.1 MAX

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最大值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a > b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出
rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)}).reduceByKey((a,b)=>if(a > b)a else b).sortByKey(true).collect.foreach(println)

　　1.2 MIN

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最小值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a < b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出

rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr(0).toInt , arr(1).toInt)}).reduceByKey((a,b)=>if(a < b)a else b).sortByKey(true).collect.foreach(println)

2. IDEA 实现

　　2.1 Scala 实现一

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用

  */

object TempAggDemoScala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    val rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,54)

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      (arr(0).toInt, arr(1).toInt)

    })

    // 3. 按照年度分组(1930->{23,34,67} , 1931->{...})

    val rdd3 = rdd2.groupByKey()

    // 4. 对组内元素进行统计聚合

    val rdd4 = rdd3.mapValues(it => {

      val max = it.max

      val min = it.min

      val sum = it.sum

      val size = it.size

      (max, min, sum.toFloat / size)

    })

    // 5. 按照年度排序

    val rdd5 = rdd4.sortByKey(true)

    // 6. 输出

    rdd5.collect().foreach(println)

  }

}

　　2.2 Scala 实现二

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用2

  */

object TempAggDemo2Scala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    var rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,(54,54,54,1))

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      // (max , min , sum , count)

      val year = arr(0).toInt

      val temp = arr(1).toInt

      (year, (temp, temp, temp, 1))

    })

    // 3. 聚合

    val rdd3 = rdd2.reduceByKey((a, b) => {

      import scala.math._

      (max(a._1, b._1), min(a._2, b._2), a._3 + b._3, a._4 + b._4)

    })

    // 4. 交换

    val rdd4 = rdd3.mapValues(t => {

      (t._1, t._2, t._3.toFloat / t._4)

    }).sortByKey()

    rdd4.collect().foreach(println)

  }

}

　　2.3 Java 实现二

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import scala.Tuple3;

import scala.Tuple4;

import java.util.List;

/**

 * 气温数据聚合应用2

 */

public class TempAggDemoJava2 {

    public static void main(String[] args) {

        // 创建 spark 配置对象

        SparkConf conf = new SparkConf();

        conf.setAppName("tempAgg2");

        conf.setMaster("local");

        // 创建上下文

        JavaSparkContext sc = new JavaSparkContext(conf);

        // 1. 加载文件

        JavaRDD<String> rdd1 = sc.textFile("file:///e:/temp3.dat");

        // 2. 变换(1903,(32,23,23,1))

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd2 = rdd1.mapToPair(new PairFunction<String, Integer, Tuple4<Integer, Integer, Integer, Integer>>() {

            public Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>> call(String s) throws Exception {

                String[] arr = s.split(" ");

                int year = Integer.parseInt(arr[0]);

                int temp = Integer.parseInt(arr[1]);

                Tuple4<Integer, Integer, Integer, Integer> v = new Tuple4<Integer, Integer, Integer, Integer>(temp, temp, temp, 1);

                return new Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>>(year, v);

            }

        });

        // 3. 聚合

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd3 = rdd2.reduceByKey(

                new Function2<Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>>() {

                    public Tuple4<Integer, Integer, Integer, Integer> call(Tuple4<Integer, Integer, Integer, Integer> v1, Tuple4<Integer, Integer, Integer, Integer> v2) throws Exception {

                        int max = Math.max(v1._1(), v2._1());

                        int min = Math.min(v1._2(), v2._2());

                        int sum = v1._3() + v2._3();

                        int count = v1._4() + v2._4();

                        return new Tuple4<Integer, Integer, Integer, Integer>(max, min, sum, count);

                    }

                });

        //4. map取出avg

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd4 = rdd3.mapValues(new Function<Tuple4<Integer, Integer, Integer, Integer>, Tuple3<Integer, Integer, Float>>() {

            public Tuple3<Integer, Integer, Float> call(Tuple4<Integer, Integer, Integer, Integer> v1) throws Exception {

                return new Tuple3<Integer, Integer, Float>(v1._1(), v1._2(), (float) v1._3() / v1._4());

            }

        });

        // 5. 排序

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd5 = rdd4.sortByKey();

        // 6. 列表

        List<Tuple2<Integer, Tuple3<Integer, Integer, Float>>> list = rdd5.collect();

        for (Tuple2<Integer, Tuple3<Integer, Integer, Float>> t : list) {

            System.out.println(t);

        }

    }

}

[Spark Core] Spark 实现气温统计的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
[Spark Core] Spark Client Job 提交三级调度框架
0. 说明官方文档 Job Scheduling Spark 调度核心组件: DagScheduler TaskScheduler BackendScheduler 1. DagSchedule ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
【待补充】[Spark Core] Spark 实现标签生成
0. 说明在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签,分别用 Scala & Java 两种代码实现. 1. 准备 1.1 pom.xml <depend ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...

随机推荐

【转载】Layered Window(分层窗体,透明窗体)
本文转载自花间醉卧<Layered Window(分层窗体,透明窗体)> //为窗体添加WS_EX_LAYERED属性,该属性使窗体支持透明 ModifyStyleEx(0, WS_EX_ ...
Scrum 冲刺博客
博客链接集合 Alpha阶段敏捷冲刺敏捷冲刺一敏捷冲刺二敏捷冲刺三敏捷冲刺四敏捷冲刺五敏捷冲刺六敏捷冲刺七 Alpha阶段敏捷冲刺总结 Alpha阶段敏捷冲刺总结
PowerBuilder编程新思维5：包装（界面美化与WebUI+React）
PowerBuilder编程新思维5:包装(界面美化与WebUI+React) 前一节,分析了三种界面美化方案,都是控件级的美化.今天再来分析一下窗口级的美化.上一次讲的DirectUI,大家反响一般 ...
list双向链表容器（常用的方法总结）
特别注意,由于list对象的结点并不要求在一段连续的内存中,所以,对于迭代器,只能通过++或者--的操作将迭代器移动到后继或者前驱结点元素处.而不能对迭代器进行+n或者-n的操作,这点与vector等 ...
Python爬虫框架Scrapy
Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决 ...
C# Hadoop学习笔记（二）—架构原理
一,架构二.名词解释 (一)NameNode(简称NN),Hadoop的主节点,负责侦听节点是否活跃,对外开放接口等.在未来的大数据处理过程中,由于访问量和节点数量的不断增多,需要该节点的处理能 ...
LDA(线性判别分析，Python实现)
源代码: #-*- coding: UTF-8 -*- from numpy import * import numpy def lda(c1,c2): #c1 第一类样本,每行是一个样本 #c2 第 ...
Java基础——String类（二）
今天做了几道String常见操作.先来几个代码实例: 例一:此方法,仅把字符串前后出现的空格去掉了,中间部分不会. class TestTrim { public static void main(S ...
Doclever 接口mock 操作
查看接口项目mock 查看说明假设本机项目路径为 http://localhost:8080 >> 启动 node node net.js http://org.my.com/mo ...
uni-app初体验及打包成apk
首先用HBuilderX新建建一个uni-app项目新建一个目录ucenter,该目录下新建两个vue文件ucenter.vue和setting.vue ucenter.vue <templa ...

[Spark Core] Spark 实现气温统计

0. 说明

1. Spark Shell 实现

2. IDEA 实现

[Spark Core] Spark 实现气温统计的更多相关文章

随机推荐

热门专题