Spark实现销量统计

package com.mengyao.examples.spark.core;

import java.io.Serializable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**

 * 国内乘用车4月、1-4月销量数据统计

 * @author mengyao

 *

 */

@SuppressWarnings("all")

public class CarSaleStatistics {

    static class Sale implements Serializable {

        private static final long serialVersionUID = -5393067134730174480L;

        //排名

        private int no;

        //车型

        private String model;

        //车企

        private String brand;

        //4月销量

        private int fourSale;

        //1-4月累计销量

        private int totalSale;

        public Sale(int no, String model, String brand, int fourSale, int totalSale) {

            this.no = no;

            this.model = model;

            this.brand = brand;

            this.fourSale = fourSale;

            this.totalSale = totalSale;

        }

        public int getNo() {

            return no;

        }

        public void setNo(int no) {

            this.no = no;

        }

        public String getModel() {

            return model;

        }

        public void setModel(String model) {

            this.model = model;

        }

        public String getBrand() {

            return brand;

        }

        public void setBrand(String brand) {

            this.brand = brand;

        }

        public int getFourSale() {

            return fourSale;

        }

        public void setFourSale(int fourSale) {

            this.fourSale = fourSale;

        }

        public int getTotalSale() {

            return totalSale;

        }

        public void setTotalSale(int totalSale) {

            this.totalSale = totalSale;

        }

        @Override

        public String toString() {

            return no + "\t" + model + "\t" + brand + "\t" + fourSale + "\t" + totalSale;

        }

    }

    /**

     * 集群模式：spark-submit --class com.mengyao.examples.spark.core.CarSaleStatistics --master yarn --deploy-mode cluster --driver-memory 2048m --executor-memory 1024m --executor-cores 1 --queue default examples-0.0.1-SNAPSHOT.jar /data/carsales_data/2018.4-china-car-sales_volume.txt /data/carsales_data/statistics/

     * 本地模式：Run As > Java Application

     * @param args [in,out]

     */

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName(CarSaleStatistics.class.getName());

        if (null==args||args.length==0) {

            args = new String[]{"./src/main/resources/data/2018.4-china-car-sales_volume.txt", "D:/"};

            System.setProperty("hadoop.home.dir", "D:/softs/dev/apache/hadoop-2.7.5");

            conf.setMaster("local");

        }

        JavaSparkContext sc = new JavaSparkContext(conf);

        //中国市场合资、国产乘用车4月分销量数据

        JavaRDD<String> linesRDD = sc.textFile(args[0]);

        //按品牌分组

        JavaPairRDD<String, Sale> brandSalesRDD = linesRDD.mapToPair(new PairFunction<String, String, Sale>() {

            private static final long serialVersionUID = -3023653638555855696L;

            @Override

            public Tuple2<String, Sale> call(String line) throws Exception {

                String[] fields = line.split("\t");

                Sale sale = new Sale(Integer.parseInt(fields[0]), fields[1], fields[2], Integer.parseInt(fields[3]), Integer.parseInt(fields[4]));

                return new Tuple2<String, Sale>(sale.getBrand(), sale);

            }

        });

        //同品牌4月总销量、1-4月总销量

        JavaPairRDD<String, Sale> brandTotalSalesRDD = brandSalesRDD.reduceByKey(new Function2<Sale, Sale, Sale>() {

            private static final long serialVersionUID = 1L;

            @Override

            public Sale call(Sale item1, Sale item2) throws Exception {

                item2.setFourSale(item1.getFourSale()+item2.getFourSale());

                item2.setTotalSale(item1.getTotalSale()+item2.getTotalSale());

                item2.setModel(item1.getModel()+","+item2.getModel());

                return item2;

            }

        });

        //4月份销量排名，转换key为4月销量

        JavaPairRDD<Integer, Sale> fourSaleRankRDD = brandTotalSalesRDD.mapToPair(new PairFunction<Tuple2<String,Sale>, Integer, Sale>() {

            private static final long serialVersionUID = 2012736852338064223L;

            @Override

            public Tuple2<Integer, Sale> call(Tuple2<String, Sale> t) throws Exception {

                return new Tuple2<Integer, Sale>(t._2.getFourSale(), t._2);

            }

        });

        //4月份销量排名降序

        JavaPairRDD<Integer, Sale> fourSaleRankDescRDD = fourSaleRankRDD.sortByKey(false);

        fourSaleRankDescRDD.foreach(new VoidFunction<Tuple2<Integer,Sale>>() {

            private static final long serialVersionUID = -8110929872210046547L;

            @Override

            public void call(Tuple2<Integer, Sale> t) throws Exception {

                Sale sale = t._2;

                System.out.println("==== 4月份销量排名："+sale.getBrand()+" = "+sale.getFourSale());

            }

        });

        fourSaleRankDescRDD.saveAsNewAPIHadoopFile(args[1]+"fourSaleRank", NullWritable.class, Text.class, TextOutputFormat.class);

        //1-4月份累计销量排名，转换key为1-4月销量

        JavaPairRDD<Integer, Sale> totalSaleRankRDD = brandTotalSalesRDD.mapToPair(new PairFunction<Tuple2<String,Sale>, Integer, Sale>() {

            private static final long serialVersionUID = 2012736852338064223L;

            @Override

            public Tuple2<Integer, Sale> call(Tuple2<String, Sale> t) throws Exception {

                return new Tuple2<Integer, Sale>(t._2.getTotalSale(), t._2);

            }

        });

        //1-4月份累计销量排名降序

        JavaPairRDD<Integer, Sale> totalSaleRankDescRDD = totalSaleRankRDD.sortByKey(false);

        totalSaleRankDescRDD.foreach(new VoidFunction<Tuple2<Integer,Sale>>() {

            private static final long serialVersionUID = -8110929872210046547L;

            @Override

            public void call(Tuple2<Integer, Sale> t) throws Exception {

                Sale sale = t._2;

                System.out.println("==== 1-4月份累计销量排名："+sale.getBrand()+" = "+sale.getTotalSale());

            }

        });

        fourSaleRankDescRDD.saveAsNewAPIHadoopFile(args[1]+"oneTofourSaleRank", NullWritable.class, Text.class, TextOutputFormat.class);

        //关闭

        sc.close();

    }

}

查看HDP Spark的HistoryServer(IP,18081),如下图表示成功：

Spark实现销量统计的更多相关文章

Spark MLib 基本统计汇总 2
4. 假设检验基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的.这个结果是否有机会发生. 显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设(或零假设) (null ...
Spark MLib 基本统计汇总 1
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现. colStats返回一个 ...
Spark Streaming 002 统计单词的例子
1.准备事先在hdfs上创建两个目录: 保存上传数据的目录:hdfs://alamps:9000/library/SparkStreaming/data checkpoint的目录:hdfs://a ...
[Spark Core] Spark 实现气温统计
0. 说明聚合气温数据,聚合出 MAX . MIN . AVG 1. Spark Shell 实现 1.1 MAX 分步实现 # 加载文档 val rdd1 = sc.textFile(" ...
spark 累加历史 + 统计全部 + 行转列
spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1 应用场景: 1.我们需要统计用户的总使用时长(累加历史) 2.前台展现页面需要对多个维度进行查询,如:产品.地 ...
spark 省份次数统计实例
//统计access.log文件里面IP地址对应的省份,并把结果存入到mysql package access1 import java.sql.DriverManager import org.ap ...
spark复习笔记(3)：使用spark实现单词统计
wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a. ...
spark jdk8 单词统计示例
在github上有spark-java8 实例地址: https://github.com/ypriverol/spark-java8 https://github.com/ihr/java8-spa ...
Spark入门案例 - 统计单词个数 / wordcount
Scala版 import org.apache.spark.{SparkConf, SparkContext} object WordCountScala { def main(args: Arra ...

随机推荐

cacti添加多个tomcat监控（多端口）
1.修改tomcat的模版 Data Input Methods->Tomcat Status 把原本固定的端口,用户名和密码手动修改成变量(绿线标出的),之后save保存之后,再在Input ...
web传参
页面通过对象,将表单数据传送给后端,后端通过对象接收参数值,
arp hook
最近疯狂的研究Linux的种种功能,也颇有心得,这里讲述一下Linux下的Net的Hook,使用net的Hook可以实现很多很多非常底层的功能,比如过滤报文,做防火墙,做代理等等. Now,Let's ...
如何设计好的RESTful API之安全性
保证RESTful API的安全性,主要包括三大方面: a) 对客户端做身份认证 b) 对敏感的数据做加密,并且防止篡改 c) 身份认证之后的授权 1.对客户端做身份认证,有几种常见的做法: 1)在请 ...
第72天：jQuery实现下拉菜单
jQuery实现下拉菜单一.居中 1.块元素居中:给块元素本身设置:margin:0 auto;,块元素必须设置宽度 2.行内块元素居中:给元素父级设置text-algin:center; < ...
iOS开发UI篇—transframe属性（形变)
iOS开发UI篇—transframe属性(形变) 1. transform属性在OC中,通过transform属性可以修改对象的平移.缩放比例和旋转角度常用的创建transform结构体方法分两 ...
【bzoj3110】[Zjoi2013]K大数查询权值线段树套区间线段树
题目描述有N个位置,M个操作.操作有两种,每次操作如果是1 a b c的形式表示在第a个位置到第b个位置,每个位置加入一个数c.如果是2 a b c形式,表示询问从第a个位置到第b个位置,第C大的数 ...
python将字符串转换成字典的几种方法
当我们遇到类似于{‘a’:1, 'b':2, 'c':3}这种字符串时,想要把它转换成字典进行处理,可以使用以下几种方法: 1. Python自带的eval函数(不安全) dictstr = '{&q ...
[BZOJ5120] [2017国家集训队测试]无限之环
Description 曾经有一款流行的游戏,叫做InfinityLoop,先来简单的介绍一下这个游戏: 游戏在一个n×m的网格状棋盘上进行,其中有些小方格中会有水管,水管可能在方格某些方向的边界的中 ...
[洛谷P4174][NOI2006]最大获利
题目大意:同Petya and Graph,数据范围改成$n\leqslant5\times10^3,m\leqslant5\times10^4$ 题解:同上卡点:无 C++ Code: #incl ...

Spark实现销量统计

Spark实现销量统计的更多相关文章

随机推荐

热门专题