【spark 算子案例】

 package spark_example01;

 import java.io.File;

 import java.io.FileWriter;

 import java.io.IOException;

 import java.util.Random;

 /**

  */

 public class PeopleInfoFileGenerator {

     public static void main(String[] args){

         File file = new File("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt");

         try {

             Random random = new Random();//生成随机数

             FileWriter fileWriter = new FileWriter(file);//新建一个文件

             for (long i=1;i<=100000000;i++){   //生成1000万个数字

                 int height = random.nextInt(220);

                 if (height < 50) {

                     height = height + 50;

                 }

                 String  gender = getRandomGender(); //性别方法

                 if (height < 100 && gender == "M") {

                     height = height + 100;

                 }

                 if (height < 100 && gender == "F") {

                     height = height + 40;

                 }

                 fileWriter.write( i + " " + getRandomGender() + " " + height); //文件格式：ID 性别 身高

                 fileWriter.write(System.getProperty("line.separator"));

             }

             fileWriter.flush();

             fileWriter.close();

             System.out.println("People Information File generated successfully.");

         }catch (IOException e){

             e.printStackTrace();

         }

     }

     public static String getRandomGender(){ //构建一个随机生成性别方法

         Random random = new Random();

         int randomNum = random.nextInt(2) + 1;

         if( randomNum % 2 == 0){

             return "M";

         }else{

             return "F";

         }

     }

 }

 package spark_example01;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.FlatMapFunction;

 import org.apache.spark.api.java.function.Function;

 import java.util.Arrays;

 /**

  * Created by Administrator on 2017/11/17.

  */

 public class PeopleInfoCalculator {

     public static void main(String[] args){

         SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local[3]");

         JavaSparkContext sc = new JavaSparkContext(sparkConf);

         JavaRDD<String> dataFile = sc.textFile("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt");

         // step1:过滤出性别为M的数据

         JavaRDD<String> maleFilterData = dataFile.filter(new Function<String, Boolean>() {

             public Boolean call(String s) throws Exception {

                 return s.contains("M");

             }

         });

         //step2:过滤出性别为F的数据

         JavaRDD<String> femaleFilterData = dataFile.filter(new Function<String, Boolean>() {

             public Boolean call(String s) throws Exception {

                 return s.contains("F");

             }

         });

         //setp3:得到性别为M的身高数据---对每一行的字符串进行切分，最后取[2]这个字符串---flatMap常用于字符串切分

         JavaRDD<String> maleHeightData = maleFilterData.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public java.util.Iterator<String> call(String s) throws Exception {

                 return Arrays.asList(s.split(" ")[2]).iterator();

             }

         });

         // step4:得到性别为F的身高数据---对每一行的字符串进行切分，最后取[2]这个字符串---flatMap常用于字符串切分

         JavaRDD<String> femaleHeightData = femaleFilterData.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public java.util.Iterator<String> call(String s) throws Exception {

                 return Arrays.asList(s.split(" ")[2]).iterator();

             }

         });

         // step5:将男性身高的字符串格式转化为整型格式

         JavaRDD<Integer> maleHeightDataInt = maleHeightData.map(new Function<String, Integer>() {//

             @Override

             public Integer call(String s) throws Exception {

                 return Integer.parseInt(String.valueOf(s));

             }

         });

         //step6:将女性身高的字符串格式转化为整型格式

         JavaRDD<Integer> femaleHeightDataInt = femaleHeightData.map(new Function<String, Integer>() {//将字符串格式转化为整型格式

             @Override

             public Integer call(String s) throws Exception {

                 return Integer.parseInt(String.valueOf(s));

             }

         });

         //sortBy(<T>,ascending,numPartitions) 解释:

         //第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD中元素的类型是一致的；

         //第二个参数是ascending，这参数决定排序后RDD中的元素是升序还是降序，默认是true，也就是升序；

         //第三个参数是numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

         //step7:对男性身高按着从低到高进行排序---参数true表示默认排序，为升序排序，从低到高排

         JavaRDD<Integer> maleHeightLowSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },true,3);

         //step8:对女性身高按着从低到高进行排序---参数true表示默认排序，为升序排序，从低到高排

         JavaRDD<Integer> femaleHeightLowSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },true,3);

         //step9:对男性身高按着从高到低进行排序---false表示为降序排序，从高到低

         JavaRDD<Integer> maleHeightHightSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },false,3);

         //step10:对女性身高按着从高到低进行排序---false表示为降序排序，从高到低

         JavaRDD<Integer> femaleHeightHightSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },false,3);

         Integer lowestMale = maleHeightLowSort.first(); //求出升序的第一个数，即最小值

         Integer lowestFemale = femaleHeightLowSort.first();//求出升序的第一个数，即最小值

         Integer highestMale = maleHeightHightSort.first();//求出降序的第一个数，即最大值

         Integer highestFemale = femaleHeightHightSort.first();//求出降序的第一个数，即最大值

         System.out.println("Number of Female Peole:" + femaleHeightData.count());//求出女性的总个数

         System.out.println("Number of Male Peole:" + maleHeightData.count());//求出男性的总个数

         System.out.println("Lowest Male:" + lowestMale);//求出男性最矮身高

         System.out.println("Lowest Female:" + lowestFemale);//求出女性最矮身高

         System.out.println("Highest Male:" + highestMale);//求出男性最高身高

         System.out.println("Highest Female:" + highestFemale);//求出女性最高身高

     }

 }

 /*

 * a. 案例描述

 本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计，需要计算出男女人数，男性中的最高和最低身高，以及女性中的最高和最低身高。

 本案例中用到的源文件有以下格式, 三列分别是 ID，性别，身高 (cm)，格式如下：

 b.人口数据的生成

 利用Java语言随机生成一组人口数据，包括序列ID，性别M/F，身高cm，代码如下：

 c. 实例过程分析

 对于这个案例，我们要分别统计男女的信息，那么很自然的想到首先需要对于男女信息从源文件的对应的 RDD 中进行分离，这样会产生两个新的 RDD，分别包含男女信息；

 其次是分别对男女信息对应的 RDD 的数据进行进一步映射，使其只包含身高数据，这样我们又得到两个 RDD，分别对应男性身高和女性身高；

 最后需要对这两个 RDD 进行排序，进而得到最高和最低的男性或女性身高。

 第一步，先分离男女信息，使用 filter 算子过滤条件包含”M” 的行是男性，包含”F”的行是女性；

 第二步我们需要使用 map 算子把男女各自的身高数据从 RDD 中分离出来；

 第三步我们需要使用 sortBy 算子对男女身高数据进行排序。

 特别注意：RDD 转化的过程中需要把身高数据转换成整数，否则 sortBy 算子会把它视为字符串，那么排序结果就会受到影响，

 例如 身高数据如果是：123,110,84,72,100，那么升序排序结果将会是 100,110,123,72,84，显然这是不对的。

 d.求出身高统计代码实现:

 * */

【spark 算子案例】的更多相关文章

Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
【原创 Hadoop&Spark 动手实践 13】Spark综合案例：简易电影推荐系统
[原创 Hadoop&Spark 动手实践 13]Spark综合案例:简易电影推荐系统
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...

随机推荐

ReactNative报错null is not an object (evaluating '_rngesturehandlermodule.default.direction')
程序报错: null is not an object (evaluating 'rngesturehandlermodule.default.direction') 解决: react-native ...
SMARTY的简单实例写法
访问页面main.php(后台页面) <?php include("../init.inc.php"); //引入入口文件 include("../DBDA.php ...
Java 之字符流
一.字符流当使用字节读取文本文件时,可能会有一个小问题,就是遇到中文字符时,可能不会显示完整的字符,那是因为一个中文字符可能占用多个字节存储.所以 Java 提供了一些字符类,以字符为单位读写数据, ...
linux reboot ,shutdown,halt区别
reboot ,shutdown,halt区别重启 reboot 和 shutdown -r now 效果是一样的都是重启区别在于reboot 是重启时,删除所有的进程,为不是平稳的终止他 ...
linux alsa音频中采样率fs、比特率BCLK 、主时钟MCLK关系
转:https://blog.csdn.net/lugandong/article/details/72468831 一.拿512fs说话: 看图知道采样的位深是32bit(位),左右声道各占了8*3 ...
C++——多维数组动态开辟与释放
前言在讨论多维数组动态开辟与释放之前,先说说什么是二维数组静态开辟与释放. 形如这种就是静态开辟内存,事先画好了内存大小 #include<iostream> using namespa ...
Java学习笔记——第2篇
Java程序的基本规则 Java程序的组织形式:纯粹的面向对象的程序设计语言,所以Java程序必须以类的形式存在,类是Java程序的最小程序单位,Java程序不允许可执行语句.方法等成分独立存在,所有 ...
MyEclipse修改运行内存
修改 myeclipse.ini -vmargs -Xmx1768m -XX:MaxPermSize=1320m -XX:ReservedCodeCacheSize=64m -Dosgi.nls.w ...
linux fstab下挂载错误导致cannot open access to console, the root account is locked的问题
用 deepin 安装 u 盘启动,出现选择安装语言的界面时,按 ctrl+alt+T,进入 tty,然后输入 startx,进入 live cd 模式,挂载硬盘的根分区,然后修改 /etc/fsta ...
26.C# 文件系统
1.流的含义流是一系列具有方向性的字节序列,比如水管中的水流,只不过现在管道中装的不是水,而是字节序列.当流是用于向外部目标比如磁盘输出数据时称为输出流,当流是用于把数据从外部目标读入程序称为输入流 ...

【spark 算子案例】

【spark 算子案例】的更多相关文章

随机推荐

热门专题