Spark实现销量统计

package com.mengyao.examples.spark.core;

import java.io.Serializable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**

 * 国内乘用车4月、1-4月销量数据统计

 * @author mengyao

 *

 */

@SuppressWarnings("all")

public class CarSaleStatistics {

    static class Sale implements Serializable {

        private static final long serialVersionUID = -5393067134730174480L;

        //排名

        private int no;

        //车型

        private String model;

        //车企

        private String brand;

        //4月销量

        private int fourSale;

        //1-4月累计销量

        private int totalSale;

        public Sale(int no, String model, String brand, int fourSale, int totalSale) {

            this.no = no;

            this.model = model;

            this.brand = brand;

            this.fourSale = fourSale;

            this.totalSale = totalSale;

        }

        public int getNo() {

            return no;

        }

        public void setNo(int no) {

            this.no = no;

        }

        public String getModel() {

            return model;

        }

        public void setModel(String model) {

            this.model = model;

        }

        public String getBrand() {

            return brand;

        }

        public void setBrand(String brand) {

            this.brand = brand;

        }

        public int getFourSale() {

            return fourSale;

        }

        public void setFourSale(int fourSale) {

            this.fourSale = fourSale;

        }

        public int getTotalSale() {

            return totalSale;

        }

        public void setTotalSale(int totalSale) {

            this.totalSale = totalSale;

        }

        @Override

        public String toString() {

            return no + "\t" + model + "\t" + brand + "\t" + fourSale + "\t" + totalSale;

        }

    }

    /**

     * 集群模式：spark-submit --class com.mengyao.examples.spark.core.CarSaleStatistics --master yarn --deploy-mode cluster --driver-memory 2048m --executor-memory 1024m --executor-cores 1 --queue default examples-0.0.1-SNAPSHOT.jar /data/carsales_data/2018.4-china-car-sales_volume.txt /data/carsales_data/statistics/

     * 本地模式：Run As > Java Application

     * @param args [in,out]

     */

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName(CarSaleStatistics.class.getName());

        if (null==args||args.length==0) {

            args = new String[]{"./src/main/resources/data/2018.4-china-car-sales_volume.txt", "D:/"};

            System.setProperty("hadoop.home.dir", "D:/softs/dev/apache/hadoop-2.7.5");

            conf.setMaster("local");

        }

        JavaSparkContext sc = new JavaSparkContext(conf);

        //中国市场合资、国产乘用车4月分销量数据

        JavaRDD<String> linesRDD = sc.textFile(args[0]);

        //按品牌分组

        JavaPairRDD<String, Sale> brandSalesRDD = linesRDD.mapToPair(new PairFunction<String, String, Sale>() {

            private static final long serialVersionUID = -3023653638555855696L;

            @Override

            public Tuple2<String, Sale> call(String line) throws Exception {

                String[] fields = line.split("\t");

                Sale sale = new Sale(Integer.parseInt(fields[0]), fields[1], fields[2], Integer.parseInt(fields[3]), Integer.parseInt(fields[4]));

                return new Tuple2<String, Sale>(sale.getBrand(), sale);

            }

        });

        //同品牌4月总销量、1-4月总销量

        JavaPairRDD<String, Sale> brandTotalSalesRDD = brandSalesRDD.reduceByKey(new Function2<Sale, Sale, Sale>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Sale call(Sale item1, Sale item2) throws Exception {

                item2.setFourSale(item1.getFourSale()+item2.getFourSale());

                item2.setTotalSale(item1.getTotalSale()+item2.getTotalSale());

                item2.setModel(item1.getModel()+","+item2.getModel());

                return item2;

            }

        });

        //4月份销量排名，转换key为4月销量

        JavaPairRDD<Integer, Sale> fourSaleRankRDD = brandTotalSalesRDD.mapToPair(new PairFunction<Tuple2<String,Sale>, Integer, Sale>() {

            private static final long serialVersionUID = 2012736852338064223L;

            @Override

            public Tuple2<Integer, Sale> call(Tuple2<String, Sale> t) throws Exception {

                return new Tuple2<Integer, Sale>(t._2.getFourSale(), t._2);

            }

        });

        //4月份销量排名降序

        JavaPairRDD<Integer, Sale> fourSaleRankDescRDD = fourSaleRankRDD.sortByKey(false);

        fourSaleRankDescRDD.foreach(new VoidFunction<Tuple2<Integer,Sale>>() {

            private static final long serialVersionUID = -8110929872210046547L;

            @Override

            public void call(Tuple2<Integer, Sale> t) throws Exception {

                Sale sale = t._2;

                System.out.println("==== 4月份销量排名："+sale.getBrand()+" = "+sale.getFourSale());

            }

        });

        fourSaleRankDescRDD.saveAsNewAPIHadoopFile(args[1]+"fourSaleRank", NullWritable.class, Text.class, TextOutputFormat.class);

        //1-4月份累计销量排名，转换key为1-4月销量

        JavaPairRDD<Integer, Sale> totalSaleRankRDD = brandTotalSalesRDD.mapToPair(new PairFunction<Tuple2<String,Sale>, Integer, Sale>() {

            private static final long serialVersionUID = 2012736852338064223L;

            @Override

            public Tuple2<Integer, Sale> call(Tuple2<String, Sale> t) throws Exception {

                return new Tuple2<Integer, Sale>(t._2.getTotalSale(), t._2);

            }

        });

        //1-4月份累计销量排名降序

        JavaPairRDD<Integer, Sale> totalSaleRankDescRDD = totalSaleRankRDD.sortByKey(false);

        totalSaleRankDescRDD.foreach(new VoidFunction<Tuple2<Integer,Sale>>() {

            private static final long serialVersionUID = -8110929872210046547L;

            @Override

            public void call(Tuple2<Integer, Sale> t) throws Exception {

                Sale sale = t._2;

                System.out.println("==== 1-4月份累计销量排名："+sale.getBrand()+" = "+sale.getTotalSale());

            }

        });

        fourSaleRankDescRDD.saveAsNewAPIHadoopFile(args[1]+"oneTofourSaleRank", NullWritable.class, Text.class, TextOutputFormat.class);

        //关闭

        sc.close();

    }

}

查看HDP Spark的HistoryServer(IP,18081),如下图表示成功：

Spark实现销量统计的更多相关文章

Spark MLib 基本统计汇总 2
4. 假设检验基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的.这个结果是否有机会发生. 显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设(或零假设) (null ...
Spark MLib 基本统计汇总 1
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现. colStats返回一个 ...
Spark Streaming 002 统计单词的例子
1.准备事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://a ...
[Spark Core] Spark 实现气温统计
0. 说明聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile(" ...
spark 累加历史 + 统计全部 + 行转列
spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1 应用场景: 1.我们需要统计用户的总使用时长(累加历史) 2.前台展现页面需要对多个维度进行查询,如:产品.地 ...
spark 省份次数统计实例
//统计access.log文件里面IP地址对应的省份,并把结果存入到mysql package access1 import java.sql.DriverManager import org.ap ...
spark复习笔记(3)：使用spark实现单词统计
wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a. ...
spark jdk8 单词统计示例
在github上有spark-java8 实例地址: https://github.com/ypriverol/spark-java8 https://github.com/ihr/java8-spa ...
Spark入门案例 - 统计单词个数 / wordcount
Scala版 import org.apache.spark.{SparkConf, SparkContext} object WordCountScala { def main(args: Arra ...

随机推荐

[C/C++] 结构体存储问题
64位操作系统,不同类型变量对应的字节数为: char : 1个字节 char*(即指针变量) : 8个字节 //32位占4个字节 short int : 2个字节 int : 4个字节 unsign ...
窗口中各模块的切换效果，使用jquery实现
用到了两个js库,请自行下载,用到的背景图片可任意图片都可以,主要是看效果 <!DOCTYPE html> <html> <head> <script src ...
2011 Multi-University Training Contest 8 - Host by HUST
Rank:56/147. 开场看B,是个线段树区间合并,花了2hour敲完代码...再花了30min查错..发现push_down有问题.改了就AC了. 然后发现A过了很多人.推了个公式,发现是个分段 ...
Android命名格式化详解
严格换行一般情况下一个“:”一换行建议函数的“{}”分别占一行例:public void ooSomething() { …… } 不要用: 例:public void doSomething ...
linux虚拟机磁盘扩展与分区大小调整
有段时间觉得linux虚拟机上的磁盘不太够用,研究了下其磁盘扩展 1.linux虚拟机磁盘扩展 step1. 先关机在编辑虚拟机中,找到硬盘选项增加空间,进行扩展step2. 进入root fdisk ...
hdu 1851（A Simple Game）（sg博弈）
A Simple Game Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/65535 K (Java/Others)Tot ...
Dom选择器以及内容文本操作
1. DOM:文档对象模型.把整个HTML当做大的对象.每一个标签认为是一个对象.(每一个个体就是一个对象) 2. 查找: 直接查找 var obj=document.getElementById(& ...
参考《Java疯狂讲义》
参考<Java疯狂讲义>Lambda表达式支持将代码块作为方法参数,Lambda表达式允许使用更简洁的代码来创建只有一个抽象方法的接口(这种接口被称为函数式接口)的实例 1. Lambda ...
Android 内核--Context对象
Context(在Android中翻译为场景):一个Activity就是一个Context,一个Service也是一个Context,应用程序中有多少个Activity或者Service,就会有多少个 ...
BZOJ2555：SubString——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=2555 (1):在当前字符串的后面插入一个字符串 (2):询问字符串s在当前字符串中出现了几次?(作 ...

Spark实现销量统计

Spark实现销量统计的更多相关文章

随机推荐

热门专题