01Spark的TopN问题

和hadoop的目的一样，给你数据，然后取TopN。数据如下：

取出数据在排名前十的数据。

代码如下：

package com.test.book;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Collections;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Set;

import java.util.SortedMap;

import java.util.TreeMap;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

public class SparkTon {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("SparkTon").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> lines = sc.textFile("/Users/mac/Desktop/TopN2.txt");

        // 将数据读进来，拆分为Tuple(String,Integer)这种形式

        JavaPairRDD<String, Integer> pairRDD = lines.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String t) throws Exception {

                // TODO Auto-generated method stub

                return new Tuple2<String, Integer>(t.split(",")[0], Integer.valueOf(t.split(",")[1]));

            }

        });

        // 按照整个分区来处理。

        JavaRDD<SortedMap<Integer, String>> pairspart = pairRDD

                .mapPartitions(new FlatMapFunction<Iterator<Tuple2<String, Integer>>, SortedMap<Integer, String>>() {

                    private static final long serialVersionUID = 1L;

                    SortedMap<Integer, String> top10 = new TreeMap<Integer, String>();

                    @Override

                    public Iterable<SortedMap<Integer, String>> call(Iterator<Tuple2<String, Integer>> t)

                            throws Exception {

                        while (t.hasNext()) {

                            Tuple2<String, Integer> tuple2 = t.next();

                            top10.put(tuple2._2, tuple2._1);

                            if (top10.size() > 10) {

                                top10.remove(top10.firstKey());

                            }

                        }

                        return Collections.singleton(top10);

                    }

                });

        // 把各个分区处理好的数据拿过来。

        List<SortedMap<Integer, String>> allTop10 = pairspart.collect();

        // 在Reduce端用TreeMap对之前的分区数据排序。

        SortedMap<Integer, String> finalmap = new TreeMap<Integer, String>();

        // 遍历每个分区的SortedMap结构

        for (SortedMap<Integer, String> localTop10 : allTop10) {

            for (Map.Entry<Integer, String> entry : localTop10.entrySet()) {

                finalmap.put(entry.getKey(), entry.getValue());

                if (finalmap.size() > 10) {

                    finalmap.remove(finalmap.firstKey());

                }

            }

        }

        // 打印出来。

        Set values = finalmap.keySet();

        Iterator<Integer> iterator = values.iterator();

        while (iterator.hasNext()) {

            System.out.println(finalmap.get(iterator.next()));

        }

    }

}

结果：

01Spark的TopN问题的更多相关文章

storm入门（二）：关于storm中某一段时间内topN的计算入门
刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍.然后转载过来. 下面是第一种: Storm的另一种常见模式是对流式数据进行所 ...
【mysql】一维数据TopN的趋势图
创建数据表语句数据表数据对上述数据进行TopN排名 select severity,sum(count) as sum from widgt_23 where insertTstamp>=' ...
【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
QL查询案例：取得分组 TOP-N
[转]SQL查询案例:取得分组 TOP-N CREATE TABLE TopnTest ( name VARCHAR(10), --姓名 procDate DATETIME, ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
大数据算法设计模式(1) - topN spark实现
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...
topN 算法以及逆算法（随笔）
topN 算法以及逆算法(随笔) 注解:所谓的 topN 算法指的是在海量的数据中进行排序从而活动前 N 的数据. 这就是所谓的 topN 算法.当然你可以说我就 sort 一下排序完了直 ...
pyspark进行词频统计并返回topN
Part I:词频统计并返回topN 统计的文本数据: what do you do how do you do how do you do how are you from operator imp ...
TOP-N类查询
Top-N查询 --Practices_29:Write a query to display the top three earners in the EMPLOYEES table. Displa ...

随机推荐

golang单例模式
1.定义:单例对象的类必须保证只有一个实例存在,全局有唯一接口访问. 2.分类: 懒汉方式:指全局的单例实例在第一次被使用时构建. 饿汉方式:指全局的单例实例在类装载时构建. 3.实现: (1)懒汉方 ...
Django——ModuleNotFoundError: No module named 'asgiref.sync'
Django+channels运行时报错 Unhandled exception in thread started by <function check_errors.<locals&g ...
Shooting Contest 射击比赛 [POJ1719] [CEOI1997] [一题多解]
Description(下有中文题意) Welcome to the Annual Byteland Shooting Contest. Each competitor will shoot to a ...
Little Pony and Alohomora Part 3 [HihoCoder 1075]
描述一日,崔克茜来到小马镇表演魔法. 其中有一个节目是开锁咒:舞台上有 n 个盒子,每个盒子中有一把钥匙,对于每个盒子而言有且仅有一把钥匙能打开它.初始时,崔克茜将会随机地选择 k 个盒子用魔法将它 ...
Yii2 数据搜索类 PostSearch
数据搜索类 PostSearch /** * @Purpose : 添加 authorName 属性,使属性和搜索表单相对应 * @return array */ public function at ...
jquery 获取奇数索引的元素，获取复选框，判断是否选中
$(".btn-xs:odd").click(function(){ var $buy_num=$(this).prev("#buy_num").val(); ...
IE内核浏览器的404页面问题和IE自动缓存引发的问题
本站404页面被IE替换成IE自己的404页面在权限设置正确的情况下,自定义的404页面文件大小如果小于512字节,那么IE内核的浏览器会认为你自定义的404页面不够权威,从而使用其自带的404页面 ...
ES6_入门（4）_数组的解构赋值
//2017/7/14 //变量的解构赋值(解构:Destructuring) //(1)数组的解构赋值 let [a,b,c]=[1,2,3];//模式匹配,只要等号两边的模式相同,左边的变量就会被 ...
JS_高程5.引用类型（5）Array类型的操作方法
一.操作方法 1.concat()方法基于当前数组中的所有项创建一个新数组.具体说,是先创建当前数组的一个副本,然后将接收到的参数添加到这个副本的末尾,最后返回新构建的数组.在没有给concat() ...
Ubuntu下实验安装
1.Ubuntu下安装sublime : http://www.linuxidc.com/Linux/2015-01/112137.htm 2.http://www.linuxidc.com/Linu ...

01Spark的TopN问题

01Spark的TopN问题的更多相关文章

随机推荐

热门专题