03Hadoop的TopN的问题

TopN的问题分为两种:一种是建是唯一的，还有是建非唯一。我们这边做的就是建是唯一的。

这里的建指得是：下面数据的第一列。

有一堆数据，想根据第一列找出里面的Top10.

如下：

关键：在map和reduce阶段都使用了TreeMap这个数据结构，他有从小到大的排序功能，所以排第一的最小，依次增大。限定大小为10 ，只要超过十，就把排在第一个的值给删除。

代码如下：

package com.book.topn;

import java.io.IOException;

import java.util.Iterator;

import java.util.Set;

import java.util.SortedMap;

import java.util.TreeMap;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class TopN {

    static class Mapper1 extends Mapper<LongWritable, Text, NullWritable, Text> {

        public SortedMap<Double, Text> top10cats = new TreeMap<Double, Text>();

        public int N = 10;

        @Override

        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, Text>.Context context)

                throws IOException, InterruptedException {

            String[] lines = value.toString().split(",");

            Double weight = Double.parseDouble(lines[0]);

            // 一行读完，然后把数据

            top10cats.put(weight, new Text(value));

            // 如果Map

            if (top10cats.size() > N) {

                top10cats.remove(top10cats.firstKey());

            }

        }

        // 待执行完map的读取比较操作后，就把TreeMap里面的数据打印出来。

        @Override

        protected void cleanup(Mapper<LongWritable, Text, NullWritable, Text>.Context context)

                throws IOException, InterruptedException {

            Set<Double> set = top10cats.keySet();

            Iterator<Double> iterator = set.iterator();

            while (iterator.hasNext()) {

                context.write(NullWritable.get(), top10cats.get(iterator.next()));

            }

        }

    }

    static class reduce1 extends Reducer<NullWritable, Text, NullWritable, Text> {

        SortedMap<Double, Text> finalTop = new TreeMap<Double, Text>();

        private int N = 10;

        @Override

        protected void reduce(NullWritable arg0, Iterable<Text> values,

                Reducer<NullWritable, Text, NullWritable, Text>.Context context)

                throws IOException, InterruptedException {

            for (Text value : values) {

                String[] finalresult = value.toString().split(",");

                finalTop.put(Double.parseDouble(finalresult[0]), new Text(value));

                if (finalTop.size() > N) {

                    finalTop.remove(finalTop.firstKey());

                }

                ;

            }

            Set<Double> set = finalTop.keySet();

            Iterator<Double> iterator = set.iterator();

            // 依次写入到文件中

            while (iterator.hasNext()) {

                context.write(NullWritable.get(), finalTop.get(iterator.next()));

            }

        }

    }

    public static void main(String[] args) throws Exception, IOException {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(TopN.class);

        job.setMapperClass(Mapper1.class);

        job.setReducerClass(reduce1.class);

        job.setMapOutputKeyClass(NullWritable.class);

        job.setMapOutputValueClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);

        // 指定输入的数据的目录

        FileInputFormat.setInputPaths(job, new Path("/Users/mac/Desktop/TopN.txt"));

        FileOutputFormat.setOutputPath(job, new Path("/Users/mac/Desktop/flowresort"));

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

结果：

注意点：

上面的注意点一定要切记。

03Hadoop的TopN的问题的更多相关文章

storm入门（二）：关于storm中某一段时间内topN的计算入门
刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍.然后转载过来. 下面是第一种: Storm的另一种常见模式是对流式数据进行所 ...
【mysql】一维数据TopN的趋势图
创建数据表语句数据表数据对上述数据进行TopN排名 select severity,sum(count) as sum from widgt_23 where insertTstamp>=' ...
【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
QL查询案例：取得分组 TOP-N
[转]SQL查询案例:取得分组 TOP-N CREATE TABLE TopnTest ( name VARCHAR(10), --姓名 procDate DATETIME, ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
大数据算法设计模式(1) - topN spark实现
topN算法,spark实现 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.java.JavaPai ...
topN 算法以及逆算法（随笔）
topN 算法以及逆算法(随笔) 注解:所谓的 topN 算法指的是在海量的数据中进行排序从而活动前 N 的数据. 这就是所谓的 topN 算法.当然你可以说我就 sort 一下排序完了直 ...
pyspark进行词频统计并返回topN
Part I:词频统计并返回topN 统计的文本数据: what do you do how do you do how do you do how are you from operator imp ...
TOP-N类查询
Top-N查询 --Practices_29:Write a query to display the top three earners in the EMPLOYEES table. Displa ...

随机推荐

信息系统项目管理师EV、PV、AC、BAC、CV、SV、EAC、ETC、CPI、SPI概念说明
挣值常用名词: AC [Actual Cost] 实际成本:完成工作的实际成本是多少? [96版的ACWP] PV [Planned Value] 计划值: 应该完成多少工作? [96版的BCWS] ...
[P1441]砝码称重 (搜索+DP)
对于我这种蒟蒻,是很不错的一题了. dfs搜索当前状态满足时DP 比较坑的地方就是起始的地方我一开始从1开始,搜索写的是从0开始. 后来就统一用0开始的了. #include<bits/st ...
HTML（三）
html图像.绝对路径和相对路径 html图像 <img>标签可以在网页上插入一张图片,它是独立使用的标签,通过“src”属性定义图片的地址,通过“alt”属性定义图片加载失败时显示的文字 ...
Eclipse 安装Maven插件m2eclipse
Eclipse->Help->Install New Software->Work with右边Add按钮->Name字段中输入m2e,Location字段中输入http:// ...
html页面布局之table布局：
table布局: table来做整体页面的布局,布局技巧归纳如下: (1)按照设计图的尺寸设置表格的宽高以及单元格的宽高 (2)将表格的border.cellpadding.cellspacing全部 ...
Java中Reflect的基本使用
首先在package reflect下定义了一个类Book package reflect; class Book{ private String title; private double pric ...
PAT基础6-3
6-3 简单求和 (10 分) 本题要求实现一个函数,求给定的N个整数的和. 函数接口定义: int Sum ( int List[], int N ); 其中给定整数存放在数组List[]中,正整数 ...
Aizu0189 Convenient Location（多源最短路）
https://vjudge.net/problem/Aizu-0189 题意:求某一点到其他所有点的最短路径之和,输出该点与和. 注意Floyd可以求多源最短路径,而Dijkstra只能求单源. # ...
zookeeper 实现分布式锁安全用法
zookeeper 实现分布式锁安全用法标签: zookeeper sessionExpire connectionLoss 分布式锁背景 ConnectionLoss 链接丢失 SessionE ...
mysql导入自定义函数不成功的解决方法
进入mysql控制台:mysql -uroot -p set global log_bin_trust_function_creators=1;

03Hadoop的TopN的问题

03Hadoop的TopN的问题的更多相关文章

随机推荐

热门专题