分组取topN

假设有这样一个文件，文件内容如下

class1

class2

class1

class1

class2

class2

class1

class2

class1

class2

要求按照班级分组取出每个班前三名，源码如下：

package swy.spark.spark_study_java.core;

import java.util.Arrays;

import java.util.Iterator;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**

 * 分组取top3

 * @author swy

 *

 */

public class GroupTop3 {

	public static void main(String[] args) {

		SparkConf conf = new SparkConf()

				.setAppName("ActionOperation")

				.setMaster("local");

				//.setMaster("spark://192.168.43.124:7077");

		JavaSparkContext sc = new JavaSparkContext(conf);

		JavaRDD<String> lines = sc.textFile("E://swy//resource//workspace-neno//spark-study-java//txt//score.txt");

		JavaPairRDD<String, Integer> pairs = lines.mapToPair(

				new PairFunction<String, String, Integer>(){

					private static final long serialVersionUID = 1L;

					public Tuple2<String, Integer> call(String s) throws Exception {

						String[] lineSpited = s.split(" ");

						return new Tuple2<String, Integer>(lineSpited[0], Integer.valueOf(lineSpited[1]));

					}

		});

		//将成绩按班级分组

		JavaPairRDD<String, Iterable<Integer>> groupPairs = pairs.groupByKey(); 

		JavaPairRDD<String, Iterable<Integer>> top3Sores = groupPairs.mapToPair(

				new PairFunction<Tuple2<String, Iterable<Integer>>, String, Iterable<Integer>>(){

					private static final long serialVersionUID = 1L;

					public Tuple2<String, Iterable<Integer>> call (

							Tuple2<String, Iterable<Integer>> classSorces) throws Exception {

						Integer[] top3 = new Integer[3];

						String className = classSorces._1;

						Iterator<Integer> scores = classSorces._2.iterator();

						while (scores.hasNext()) {

							Integer score = scores.next();

							for (int i = 0; i<3; i++) {

								if (top3[i] == null) {

									top3[i] = score;

									break;

								} else if (score > top3[i]) {

									int tmp = top3[i];

									top3[i] = score;

									if (i < top3.length - 1) {

										top3[i+1] = tmp;

									}

									break;

								}

							}

						}

						return new Tuple2<String,

								Iterable<Integer>>(className, Arrays.asList(top3));

					}

		});

		top3Sores.foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>(){

			private static final long serialVersionUID = 1L;

			public void call(Tuple2<String, Iterable<Integer>> v) throws Exception {

				System.out.println("班级：" + v._1);

				System.out.println("前三名：" + v._2);

			}

		});

		sc.close();

	}

}

topN的排序算法可以理解：

假如有三个山洞，一群土匪排着队来抢占山洞，按如下规则占领山洞，下面算法保证第一个山洞主人永远是最厉害的，以此类推

土匪 ：待排序序列

三个山洞：top3
妻子：一个临时tmp变量
打架：比较大小

for (土匪 ： i) {

    for (山洞 ： i) {

        if( 山洞空) 
           入住 ； 
           break;
        else (山洞有人：和原主人打架) {

            if （打赢）{

                 入住

                 原主人带着妻子住下一个山洞（假如还有的话）

            }
            break;

        }

    }

}

实现：

while (scores.hasNext()) {

    Integer score = scores.next();

    for (int i = ; i<; i++) {

        if (top3[i] == null) {

            top3[i] = score;
            break;

        } else if (score > top3[i]) {

            int tmp = top3[i];

            top3[i] = score;

            if (i < top3.length - ) {

                top3[i+] = tmp;

            }
            break;

        }

    }

}

分组取topN的更多相关文章

spark 分组取topn
java /** *分组取topn,有序数列去除一些项后,仍然有序,所以应当先排序后分组 *@author Tele * */ public class TopDemo2 { private stat ...
mysql分组取topn
本文来自 http://www.jb51.net/article/31590.htm 有些语句sql top n 是sqlserver语法 --按某一字段分组取最大(小)值所在行的数据代码如下: ...
Spark 两种方法计算分组取Top N
Spark 分组取Top N运算大数据处理中,对数据分组后,取TopN是非常常见的运算. 下面我们以一个例子来展示spark如何进行分组取Top的运算. 1.RDD方法分组取TopN from py ...
使用dataframe解决spark TopN问题：分组、排序、取TopN和join相关问题
package com.profile.mainimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.fu ...
Hive分组取Top K数据
阿里交叉面试问到了这个题,当时感觉没有答好,主要是对Hive这块还是不熟悉,其实可以采用row_number()函数. 1.ROW_NUMBER,RANK(),DENSE_RANK() 语法格式:ro ...
sql 分组取最新的数据sqlserver巧用row_number和partition by分组取top数据
SQL Server 2005后之后,引入了row_number()函数,row_number()函数的分组排序功能使这种操作变得非常简单分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系 ...
mysql单列去重复group by分组取每组前几条记录加order by排序
mysql分组取每组前几条记录(排名) 附group by与order by的研究,需要的朋友可以参考下 --按某一字段分组取最大(小)值所在行的数据复制代码代码如下: /* 数据如下: name ...
row_number和partition by分组取top数据
分组取TOP数据是T-SQL中的常用查询, 如学生信息管理系统中取出每个学科前3名的学生.这种查询在SQL Server 2005之前,写起来很繁琐,需要用到临时表关联查询才能取到.SQL Serve ...
sql分组取第一条数据
sq分组取第一条数据的一个方法: select * from ( select row_number() over(partition by ID order by ID) as rownum , * ...

随机推荐

毕业设计过程中的一些学习Android网站
安卓巴士:http://www.apkbus.com/CSDN:(下载资源)http://www.csdn.net/?ref=toolbar博客园:http://www.cnblogs.com/极客学 ...
HTML5 lufylegend引擎学习（一） -- 剪刀石头布小游戏
网址:http://www.lufylegend.com/ <!DOCTYPE html> <html> <head> <title>A Little ...
React学习系列之（1）简单的demo（React脚手架）
1.什么是React? React是一个一个声明式,高效且灵活的用于构建用户界面的JavaScript库.React 起源于 Facebook 的内部项目,用来架设 Instagram 的网站,并于 ...
mysql 二十余种报错注入姿势
1.floor() floor 和group by 搭配使用利用group by 的key唯一性和mysql 编码执行顺序导致二次执行产生不同key ))) ) 数值型注入时不用闭合‘ 进行 ...
ASP.NET Core 3.0 一个 jwt 的轻量角色/用户、单个API控制的授权认证库
目录说明一.定义角色.API.用户二.添加自定义事件三.注入授权服务和中间件三.如何设置API的授权四.添加登录颁发 Token 五.部分说明六.验证说明 ASP.NET Core 3 ...
前端Vue框架-vuex状态管理详解
新人报道!多多关照-多提宝贵意见谢谢- vuex理解采用集中式存储管理模式.用来管理组件的状态,并以自定义规则去观测实时监听值得变化. 状态模式管理理解属性理解 state 驱动应用的数据源 ...
玩转OneNET物联网平台之MQTT服务⑤ —— OneNet智能灯+MVP框架
授人以鱼不如授人以渔,目的不是为了教会你具体项目开发,而是学会学习的能力.希望大家分享给你周边需要的朋友或者同学,说不定大神成长之路有博哥的奠基石... QQ技术互动交流群:ESP8266&3 ...
css定位双飞翼
<!doctype html><html><head><meta charset="utf-8"><title>双飞翼& ...
.net core跨平台应用研究-ubuntu core下配置.net core运行时
引言年初研究了一阵子.net core跨平台应用,先后发表了几篇应用研究的文章.因工作原因,忙于项目上线,有一阵子没来博客园写文章了.最近项目基本收尾,抽空翻了下自己的博客,廖廖几篇文章,真让人汗颜 ...
OTA升级详解（一）
不积跬步,无以至千里: 不积小流,无以成江海. 出自荀子<劝学篇> 1.概念解释 OTA是何物? 英文解释为 Over The Air,既空中下载的意思,具体指远程无线方式,OTA 技术可 ...

分组取topN

分组取topN的更多相关文章

随机推荐

热门专题