hadoop mapreduce求解有序TopN（高效模式）

1、在map阶段对数据先求解改分片的topN，到reduce阶段再合并求解一次，求解过程利用TreeMap的排序特性，不用自己写算法。

2、样板数据，类似如下

1 	13682846555	192.168.100.12	www.qq.com	1938	2910	200

3、code

3.1 mapper

public class TopNMapper extends Mapper<LongWritable, Text, FlowBeanSorted,Text> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    private TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    private enum Counters {LINES}

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        context.getCounter(Counters.LINES).increment(1);

        String lines = value.toString();

        String[] fields = lines.split("\\s+");

        String phoneNumber = fields[1];

        long upFlow = Long.parseLong(fields[fields.length-3]);

        long downFlow = Long.parseLong(fields[fields.length-2]);

        FlowBeanSorted k = new FlowBeanSorted();

        Text v = new Text();

        k.setAll(upFlow,downFlow);

        v.set(phoneNumber);

        flowMap.put(k,v);

        //限制TreeMap的数据量，超过10条就删除掉流量最小的一条数据

        if (flowMap.size() > 10) {

//        flowMap.remove(flowMap.firstKey());

            flowMap.remove(flowMap.lastKey());

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

        Iterator<FlowBeanSorted> bean = flowMap.keySet().iterator();

        while (bean.hasNext()) {

            FlowBeanSorted k = bean.next();

            context.write(k, flowMap.get(k));

        }

    }

}

3.2 reducer

public class TopNReducer extends Reducer<FlowBeanSorted, Text,Text,FlowBeanSorted> {

    // 定义一个TreeMap作为存储数据的容器（天然按key排序）

    TreeMap<FlowBeanSorted, Text> flowMap = new TreeMap<>();

    @Override

    protected void reduce(FlowBeanSorted key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        for (Text value : values) {

            FlowBeanSorted bean = new FlowBeanSorted();

            bean.setAll(key.getUpFlow(),key.getDownFlow());

            // 1 向treeMap集合中添加数据

            flowMap.put(bean, new Text(value));

            // 2 限制TreeMap数据量，超过10条就删除掉流量最小的一条数据

            if (flowMap.size() > 10) {

                // flowMap.remove(flowMap.firstKey());

                flowMap.remove(flowMap.lastKey());

            }

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

//        遍历集合，输出数据

        Iterator<FlowBeanSorted> it = flowMap.keySet().iterator();

        while (it.hasNext()) {

            FlowBeanSorted v = it.next();

            context.write(new Text(flowMap.get(v)), v);

        }

    }

}

3.3 driver

public class TopNDriver {

    public static void main(String[] args) throws Exception {

        args  = new String[]{"input/phone*.txt","output/"};

        //获取配置信息，或者job对象实例

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        //指定本程序的jar包所在的本地路径

        job.setJarByClass(TopNDriver.class);

        //指定本业务job要使用的mapper/Reducer业务类

        job.setMapperClass(TopNMapper.class);

        job.setReducerClass(TopNReducer.class);

        //指定mapper输出数据的kv类型

        job.setMapOutputKeyClass(FlowBeanSorted.class);

        job.setMapOutputValueClass(Text.class);

        //指定最终输出的数据的kv类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBeanSorted.class);

        //指定job的输入原始文件所在目录

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        Path outPath = new Path(args[1]);

        FileSystem fs = FileSystem.get(configuration);

        if(fs.exists(outPath)){

            fs.delete(outPath,true);

        }

        //将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

hadoop mapreduce求解有序TopN
利用hadoop的map和reduce排序特性实现对数据排序取TopN条数据. 代码参考:https://github.com/asker124143222/wordcount 1.样本数据,假设是订 ...
Hadoop之MapReduce的两种任务模式
http://qianshangding.iteye.com/blog/2259421 Hadoop之MapReduce的两种任务模式
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
hadoop MapReduce 笔记
1. MapReduce程序开发步骤编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行用 ...
hadoop MapReduce Yarn运行机制
原 Hadoop MapReduce 框架的问题原hadoop的MapReduce框架图从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 首先用户程序 (JobClient) ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
使用Python实现Hadoop MapReduce程序
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的 ...
四种方案：将OpenStack私有云部署到Hadoop MapReduce环境中
摘要:OpenStack与Hadoop被誉为继Linux之后最有可能获得巨大成功的开源项目.这二者如何结合成为更猛的新方案?业内给出两种答案:Hadoop跑在OpenStack上或OpenStack部 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

python Windows环境下文件路径问题
转自:http://blog.sina.com.cn/s/blog_5ee7254801013zu7.html 在python程序里面我们经常需要对文件进行操作,Windows下的文件目录路径使用反斜 ...
javaWeb核心技术第十篇之Filter
Web中有三大组件(需要配置web.xml) servlet:服务器端的小程序. Filter(过滤器):运行在服务器,对请求的资源进行过滤,对响应进行包装. 经典案例: 自动登录,网站全局编码,非法 ...
Java面试基础 -- Docker篇
1.什么是Docker? Docker是一个容器化平台,它以容器的形式将您的应用程序及其所有依赖项打包在一起,以确保您的应用程序在任何环境中无缝运行. 2.什么是Docker镜像? Docker镜像是 ...
Angular中使用bootstrap样式
Angular中使用bootstrap样式 Angular中引入bootstrap的方法方法1:在Angular.json中的styles数组中添加bootstrap路径如下所示: " ...
Cobalt Strike系列教程第四章：文件/进程管理与键盘记录
Cobalt Strike系列教程分享如约而至,新关注的小伙伴可以先回顾一下前面的内容: Cobalt Strike系列教程第一章:简介与安装 Cobalt Strike系列教程第二章:Beacon详 ...
利用Azure虚拟机安装Dynamics 365 Customer Engagement之九：新建组织
我是微软Dynamics 365 & Power Platform方面的工程师罗勇,也是2015年7月到2018年6月连续三年Dynamics CRM/Business Solutions方面 ...
从系统学Android--2.5Activity启动模式
本系列文章目录:更多精品文章分类本系列持续更新中.... Activity 的启动模式一共有四种,分别是:standard.singleTop.singleTask.singleInstance . ...
HTML技巧篇：实现元素水平与垂直居中的几种方式
如何使用html+css实现元素的水平与垂直居中效果,这也是我们网页在编码制作中会经常用到的问题. 1)单行文本的居中主要实现css代码: 水平居中:text-align:center;垂直居中:l ...
mysql语法总结及例子
1. DDL相关 a. -- 查询所有数据库 show databases;-- 删除数据库drop database ladeng; b. -- use `数据库名称`; 表示使用此数据库 use ...
Vue你不知到的$this.emit()的用法
需求需求:除了拿到false,还要拿到v-for中的index 如何解决:再使用一次父传子,:a="index" 将下标值传递给子组件注意要加引号 <expert ...

hadoop mapreduce求解有序TopN（高效模式）

hadoop mapreduce求解有序TopN（高效模式）的更多相关文章

随机推荐

热门专题