[Spark Core] Spark 实现气温统计

0. 说明

　　聚合气温数据，聚合出 MAX 、 MIN 、 AVG

1. Spark Shell 实现

　　1.1 MAX

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最大值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a > b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出
rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)}).reduceByKey((a,b)=>if(a > b)a else b).sortByKey(true).collect.foreach(println)

　　1.2 MIN

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最小值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a < b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出

rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr(0).toInt , arr(1).toInt)}).reduceByKey((a,b)=>if(a < b)a else b).sortByKey(true).collect.foreach(println)

2. IDEA 实现

　　2.1 Scala 实现一

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用

  */

object TempAggDemoScala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    val rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,54)

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      (arr(0).toInt, arr(1).toInt)

    })

    // 3. 按照年度分组(1930->{23,34,67} , 1931->{...})

    val rdd3 = rdd2.groupByKey()

    // 4. 对组内元素进行统计聚合

    val rdd4 = rdd3.mapValues(it => {

      val max = it.max

      val min = it.min

      val sum = it.sum

      val size = it.size

      (max, min, sum.toFloat / size)

    })

    // 5. 按照年度排序

    val rdd5 = rdd4.sortByKey(true)

    // 6. 输出

    rdd5.collect().foreach(println)

  }

}

　　2.2 Scala 实现二

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用2

  */

object TempAggDemo2Scala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    var rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,(54,54,54,1))

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      // (max , min , sum , count)

      val year = arr(0).toInt

      val temp = arr(1).toInt

      (year, (temp, temp, temp, 1))

    })

    // 3. 聚合

    val rdd3 = rdd2.reduceByKey((a, b) => {

      import scala.math._

      (max(a._1, b._1), min(a._2, b._2), a._3 + b._3, a._4 + b._4)

    })

    // 4. 交换

    val rdd4 = rdd3.mapValues(t => {

      (t._1, t._2, t._3.toFloat / t._4)

    }).sortByKey()

    rdd4.collect().foreach(println)

  }

}

　　2.3 Java 实现二

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import scala.Tuple3;

import scala.Tuple4;

import java.util.List;

/**

 * 气温数据聚合应用2

 */

public class TempAggDemoJava2 {

    public static void main(String[] args) {

        // 创建 spark 配置对象

        SparkConf conf = new SparkConf();

        conf.setAppName("tempAgg2");

        conf.setMaster("local");

        // 创建上下文

        JavaSparkContext sc = new JavaSparkContext(conf);

        // 1. 加载文件

        JavaRDD<String> rdd1 = sc.textFile("file:///e:/temp3.dat");

        // 2. 变换(1903,(32,23,23,1))

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd2 = rdd1.mapToPair(new PairFunction<String, Integer, Tuple4<Integer, Integer, Integer, Integer>>() {

            public Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>> call(String s) throws Exception {

                String[] arr = s.split(" ");

                int year = Integer.parseInt(arr[0]);

                int temp = Integer.parseInt(arr[1]);

                Tuple4<Integer, Integer, Integer, Integer> v = new Tuple4<Integer, Integer, Integer, Integer>(temp, temp, temp, 1);

                return new Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>>(year, v);

            }

        });

        // 3. 聚合

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd3 = rdd2.reduceByKey(

                new Function2<Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>>() {

                    public Tuple4<Integer, Integer, Integer, Integer> call(Tuple4<Integer, Integer, Integer, Integer> v1, Tuple4<Integer, Integer, Integer, Integer> v2) throws Exception {

                        int max = Math.max(v1._1(), v2._1());

                        int min = Math.min(v1._2(), v2._2());

                        int sum = v1._3() + v2._3();

                        int count = v1._4() + v2._4();

                        return new Tuple4<Integer, Integer, Integer, Integer>(max, min, sum, count);

                    }

                });

        //4. map取出avg

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd4 = rdd3.mapValues(new Function<Tuple4<Integer, Integer, Integer, Integer>, Tuple3<Integer, Integer, Float>>() {

            public Tuple3<Integer, Integer, Float> call(Tuple4<Integer, Integer, Integer, Integer> v1) throws Exception {

                return new Tuple3<Integer, Integer, Float>(v1._1(), v1._2(), (float) v1._3() / v1._4());

            }

        });

        // 5. 排序

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd5 = rdd4.sortByKey();

        // 6. 列表

        List<Tuple2<Integer, Tuple3<Integer, Integer, Float>>> list = rdd5.collect();

        for (Tuple2<Integer, Tuple3<Integer, Integer, Float>> t : list) {

            System.out.println(t);

        }

    }

}

[Spark Core] Spark 实现气温统计的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
[Spark Core] Spark Client Job 提交三级调度框架
0. 说明官方文档 Job Scheduling Spark 调度核心组件: DagScheduler TaskScheduler BackendScheduler 1. DagSchedule ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
【待补充】[Spark Core] Spark 实现标签生成
0. 说明在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签,分别用 Scala & Java 两种代码实现. 1. 准备 1.1 pom.xml <depend ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...

随机推荐

DOS在这里
转自: http://blog.csdn.net/rheostat/article/details/8043835 在右键菜单中添加Dos快捷通道-dos在这里在右键菜单中添加 Dos 窗体不用每 ...
常见的加密解密算法-MD5
一.MD5加密概述 Message Digest Algorithm MD5(中文名为消息摘要算法第五版)为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护.该算法的文件号为RFC 13 ...
获取呈现在格表(table)记录的主键
用mouse点击表格(table)的行或是批定列,获取记录的主键值.在ASP.NET的MVC应用程序中,已经没有办法象ASP.NET的Data控件一样,如GridView,DataList和Repea ...
为MVC应用程序创建导航条
今晚写点什么呢?对于以前的练习,看来看去,好象还差一个菜单导航条.在练习的站点中,有创建了三个控制器,我们就用它们来创建一个导航条吧.想实现这导航条,刚开始还是有点难,还是想起以前ASP.NET的Me ...
[原] jQuery EasyUI 1.3.4 离线API、Demo (最新)
说明本文下载包为 jQuery EasyUI 1.3.4 离线API.Demo. API 按照分类整理做成了离线版本,文档保证和官网完全一致: Demo 按照分类整理为合集. 1.3.3版本中新增 ...
golang中的接口实现(一)
golang中的接口实现 // 定义一个接口 type People interface { getAge() int // 定义抽象方法1 getName() string // 定义抽象方法2 } ...
【MongoDB学习-安装流程】
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的. 支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型. ...
winform窗体小程序【三级联动】
三级联动[省,市,区] 类似地区选择,当选的某个省份,后面的下拉框相对变成对应省份的区县实现省市区联动关键是数据库的表,[每个省内区的AreaCode列是同样的] public Form2() { ...
git从入门到放弃
到你想进行版本控制的文件所在的目录下(该目录即是工作区) 查看状态 git status 初始化 git init 添加到暂存区 git add 提交到版本库 git commit -m " ...
oracle安装与备份导入
win10安装oracle因运行版本问题导致安装时提示错误(可能win10未被甲骨文公司认证) 跳过的问题需要更改配置文件: 配置位置在 : 具体操作如下图: 在安装时win10跳过了许是因为环 ...

[Spark Core] Spark 实现气温统计

0. 说明

1. Spark Shell 实现

2. IDEA 实现

[Spark Core] Spark 实现气温统计的更多相关文章

随机推荐

热门专题