hadoop mapreduce求解有序TopN（高效模式）

1、在map阶段对数据先求解改分片的topN，到reduce阶段再合并求解一次，求解过程利用TreeMap的排序特性，不用自己写算法。

2、样板数据，类似如下

1 	13682846555	192.168.100.12	www.qq.com	1938	2910	200

3、code

3.1 mapper

public class TopNMapper extends Mapper<LongWritable, Text, FlowBeanSorted,Text> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    private TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    private enum Counters {LINES}

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.getCounter(Counters.LINES).increment(1);

        String lines = value.toString();

        String[] fields = lines.split("\\s+");

        String phoneNumber = fields[1];

        long upFlow = Long.parseLong(fields[fields.length-3]);

        long downFlow = Long.parseLong(fields[fields.length-2]);

        FlowBeanSorted k = new FlowBeanSorted();

        Text v = new Text();

        k.setAll(upFlow,downFlow);

        v.set(phoneNumber);

        flowMap.put(k,v);

        //限制TreeMap的数据量，超过10条就删除掉流量最小的一条数据

        if (flowMap.size() > 10) {

//        flowMap.remove(flowMap.firstKey());

            flowMap.remove(flowMap.lastKey());

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

        Iterator<FlowBeanSorted> bean = flowMap.keySet().iterator();

        while (bean.hasNext()) {

            FlowBeanSorted k = bean.next();

            context.write(k, flowMap.get(k));

        }

    }

}

3.2 reducer

public class TopNReducer extends Reducer<FlowBeanSorted, Text,Text,FlowBeanSorted> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    @Override

    protected void reduce(FlowBeanSorted key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        for (Text value : values) {

            FlowBeanSorted bean = new FlowBeanSorted();

            bean.setAll(key.getUpFlow(),key.getDownFlow());

            // 1 向treeMap集合中添加数据

            flowMap.put(bean, new Text(value));

            // 2 限制TreeMap数据量，超过10条就删除掉流量最小的一条数据

            if (flowMap.size() > 10) {

                // flowMap.remove(flowMap.firstKey());

                flowMap.remove(flowMap.lastKey());

            }

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

//        遍历集合，输出数据

        Iterator<FlowBeanSorted> it = flowMap.keySet().iterator();

        while (it.hasNext()) {

            FlowBeanSorted v = it.next();

            context.write(new Text(flowMap.get(v)), v);

        }

    }

}

3.3 driver

public class TopNDriver {

    public static void main(String[] args) throws Exception {

        args  = new String[]{"input/phone*.txt","output/"};

        //获取配置信息，或者job对象实例

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        //指定本程序的jar包所在的本地路径

        job.setJarByClass(TopNDriver.class);

        //指定本业务job要使用的mapper/Reducer业务类

        job.setMapperClass(TopNMapper.class);

        job.setReducerClass(TopNReducer.class);

        //指定mapper输出数据的kv类型

        job.setMapOutputKeyClass(FlowBeanSorted.class);

        job.setMapOutputValueClass(Text.class);

        //指定最终输出的数据的kv类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBeanSorted.class);

        //指定job的输入原始文件所在目录

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        Path outPath = new Path(args[1]);

        FileSystem fs = FileSystem.get(configuration);

        if(fs.exists(outPath)){

            fs.delete(outPath,true);

        }

        //将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

hadoop mapreduce求解有序TopN
利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据. 代码参考:https://github.com/asker124143222/wordcount 1.样本数据,假设是订 ...
Hadoop之MapReduce的两种任务模式
http://qianshangding.iteye.com/blog/2259421 Hadoop之MapReduce的两种任务模式
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
hadoop MapReduce 笔记
1. MapReduce程序开发步骤编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行用 ...
hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的 ...
四种方案：将OpenStack私有云部署到Hadoop MapReduce环境中
摘要:OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目.这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

Customize the Application UI and Behavior 自定义应用程序UI和行为
In XAF, the business model defines the database structure and UI appearance. Changes to your persist ...
【分享】git全套视频教程
1.课件 https://www.cnblogs.com/wfd360/p/10891140.html 2.教程列表 3.教程下载 3.1.直接在线学习学习地址:https://study.163. ...
MySQL数据库：排序及limit的使用
排序排序方式: 升序--asc(默认:从小到大) 降序--desc(由大到小) # 排序语法: order by 字段1 [asc]|desc[,字段2 [adc]|desc,--] limit # ...
Scrapy的下载中间件
下载中间件简介下载器,无法执行js代码,本身不支持代理下载中间件用来hooks进Scrapy的request/response处理过程的框架,一个轻量级的底层系统,用来全局修改scrapy的re ...
向busybox中添加自己的applet
关键词:buysbox.applet等. busybox常用于嵌入式环境,集成中断Linux命令和工具.这些工具简单高效. 下面从如下方面了解: 这些命令是一个软链接到busybox,那么是如何从软连 ...
s3c2440裸机-时钟编程(二、配置时钟寄存器)
s3c2440裸机编程-时钟编程(二.配置时钟寄存器) 1.2440时钟时序下图是2440时钟配置时序: 1.上电后,nRESET复位信号拉低,此时cpu还无法取指令工作. 2.nRESET复位信号 ...
SSH整合二
结构图 articles模块实体类Articles.java package com.jt.articles.entity; public class Articles { private Inte ...
RabbitMQ学习笔记（六、RabbitMQ进阶）
目录: 性能存储机制内存及磁盘告警性能: 影响RabbitMQ性能的因素有很多,主要的分为硬件性能与软件性能. )硬件性能:如网络.内存.CPU等等. )软件性能:消息持久化.消息确认.路由算法 ...
201871010102-常龙龙《面向对象程序设计（java）》第十四周学习总结
项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...
acwing 116. 飞行员兄弟
地址 https://www.acwing.com/problem/content/118/ “飞行员兄弟”这个游戏,需要玩家顺利的打开一个拥有16个把手的冰箱. 已知每个把手可以处于以下两种状态之 ...

hadoop mapreduce求解有序TopN（高效模式）

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

随机推荐

热门专题