MapReduce TopK统计加排序

Hadoop技术内幕中指出Top K算法有两步，一是统计词频，二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例，这些案例都只有排序功能，所以自己写了个案例。

这个案例分两个步骤，第一个是就是wordCount案例，二就是排序功能。

一，统计词频

 package TopK;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 统计词频

  * @author zx

  * zhangxian1991@qq.com

  */

 public class WordCount {

     /**

      * 读取单词

      * @author zx

      *

      */

     public static class Map extends Mapper<Object,Text,Text,IntWritable>{

         IntWritable count = new IntWritable(1);

         @Override

         protected void map(Object key, Text value, Context context)

                 throws IOException, InterruptedException {

             StringTokenizer st = new StringTokenizer(value.toString());

             while(st.hasMoreTokens()){

                 String word = st.nextToken().replaceAll("\"", "").replace("'", "").replace(".", "");

                 context.write(new Text(word), count);

             }

         }

     }

     /**

      * 统计词频

      * @author zx

      *

      */

     public static class Reduce extends Reducer<Text,IntWritable,Text,IntWritable>{

         @SuppressWarnings("unused")

         @Override

         protected void reduce(Text key, Iterable<IntWritable> values,Context context)

                 throws IOException, InterruptedException {

             int count = 0;

             for (IntWritable intWritable : values) {

                 count ++;

             }

             context.write(key,new IntWritable(count));

         }

     }

     @SuppressWarnings("deprecation")

     public static boolean run(String in,String out) throws IOException, ClassNotFoundException, InterruptedException{

         Configuration conf = new Configuration();

         Job job = new Job(conf,"WordCount");

         job.setJarByClass(WordCount.class);

         job.setMapperClass(Map.class);

         job.setReducerClass(Reduce.class);

         // 设置Map输出类型

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         // 设置Reduce输出类型

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         // 设置输入和输出目录

         FileInputFormat.addInputPath(job, new Path(in));

         FileOutputFormat.setOutputPath(job, new Path(out));

         return job.waitForCompletion(true);

     }

 }

二，排序并求出频率最高的前K个词

 package TopK;

 import java.io.IOException;

 import java.util.Comparator;

 import java.util.Map.Entry;

 import java.util.Set;

 import java.util.StringTokenizer;

 import java.util.TreeMap;

 import java.util.regex.Pattern;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 /**

  * 以单词出现的频率排序

  *

  * @author zx

  * zhangxian1991@qq.com

  */

 public class Sort {

     /**

      * 读取单词（词频 word）

      *

      * @author zx

      *

      */

     public static class Map extends Mapper<Object, Text, IntWritable, Text> {

         // 输出key 词频

         IntWritable outKey = new IntWritable();

         Text outValue = new Text();

         @Override

         protected void map(Object key, Text value, Context context)

                 throws IOException, InterruptedException {

             StringTokenizer st = new StringTokenizer(value.toString());

             while (st.hasMoreTokens()) {

                 String element = st.nextToken();

                 if (Pattern.matches("\\d+", element)) {

                     outKey.set(Integer.parseInt(element));

                 } else {

                     outValue.set(element);

                 }

             }

             context.write(outKey, outValue);

         }

     }

     /**

      * 根据词频排序

      *

      * @author zx

      *

      */

     public static class Reduce extends

             Reducer<IntWritable, Text, Text, IntWritable> {

         private static MultipleOutputs<Text, IntWritable> mos = null;

         //要获得前K个频率最高的词

         private static final int k = 10;

         //用TreeMap存储可以利用它的排序功能

         //这里用 MyInt 因为TreeMap是对key排序，且不能唯一，而词频可能相同，要以词频为Key就必需对它封装

         private static TreeMap<MyInt, String> tm = new TreeMap<MyInt, String>(new Comparator<MyInt>(){

             /**

              * 默认是从小到大的顺序排的，现在修改为从大到小

              * @param o1

              * @param o2

              * @return

              */

             @Override

             public int compare(MyInt o1, MyInt o2) {

                 return o2.compareTo(o1);

             }

         }) ;

         /*

          * 以词频为Key是要用到reduce的排序功能

          */

         @Override

         protected void reduce(IntWritable key, Iterable<Text> values,

                 Context context) throws IOException, InterruptedException {

             for (Text text : values) {

                 context.write(text, key);

                 tm.put(new MyInt(key.get()),text.toString());

                 //TreeMap以对内部数据进行了排序，最后一个必定是最小的

                 if(tm.size() > k){

                     tm.remove(tm.lastKey());

                 }

             }

         }

         @Override

         protected void cleanup(Context context)

                 throws IOException, InterruptedException {

             String path = context.getConfiguration().get("topKout");

             mos = new MultipleOutputs<Text, IntWritable>(context);

             Set<Entry<MyInt, String>> set = tm.entrySet();

             for (Entry<MyInt, String> entry : set) {

                 mos.write("topKMOS", new Text(entry.getValue()), new IntWritable(entry.getKey().getValue()), path);

             }

             mos.close();

         }

     }

     @SuppressWarnings("deprecation")

     public static void run(String in, String out,String topKout) throws IOException,

             ClassNotFoundException, InterruptedException {

         Path outPath = new Path(out);

         Configuration conf = new Configuration();

         //前K个词要输出到哪个目录

         conf.set("topKout",topKout);

         Job job = new Job(conf, "Sort");

         job.setJarByClass(Sort.class);

         job.setMapperClass(Map.class);

         job.setReducerClass(Reduce.class);

         // 设置Map输出类型

         job.setMapOutputKeyClass(IntWritable.class);

         job.setMapOutputValueClass(Text.class);

         // 设置Reduce输出类型

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         //设置MultipleOutputs的输出格式

         //这里利用MultipleOutputs进行对文件输出

         MultipleOutputs.addNamedOutput(job,"topKMOS",TextOutputFormat.class,Text.class,Text.class);

         // 设置输入和输出目录

         FileInputFormat.addInputPath(job, new Path(in));

         FileOutputFormat.setOutputPath(job, outPath);

         job.waitForCompletion(true);

     }

 }

自己封装的Int

 package TopK;

 public class MyInt implements Comparable<MyInt>{

     private Integer value;

     public MyInt(Integer value){

         this.value = value;

     }

     public int getValue() {

         return value;

     }

     public void setValue(int value) {

         this.value = value;

     }

     @Override

     public int compareTo(MyInt o) {

         return value.compareTo(o.getValue());

     }

 }

运行入口

 package TopK;

 import java.io.IOException;

 /**

  *

  * @author zx

  *zhangxian1991@qq.com

  */

 public class TopK {

     public static void main(String args[]) throws ClassNotFoundException, IOException, InterruptedException{

         //要统计字数，排序的文字

         String in = "hdfs://localhost:9000/input/MaDing.text";

         //统计字数后的结果

         String wordCout = "hdfs://localhost:9000/out/wordCout";

         //对统计完后的结果再排序后的内容

         String sort = "hdfs://localhost:9000/out/sort";

         //前K条

         String topK = "hdfs://localhost:9000/out/topK";

         //如果统计字数的job完成后就开始排序

         if(WordCount.run(in, wordCout)){

             Sort.run(wordCout, sort,topK);

         }

     }

 }

MapReduce TopK统计加排序的更多相关文章

mapreduce数据处理——统计排序
接上篇https://www.cnblogs.com/sengzhao666/p/11850849.html 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (id) ·按照地市统计最 ...
MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
分页查询最好加排序（order by）
昨天,与外部化系统对接时,发现有一个数据一直咩有集成到,双方各自排查了自己系统的代码,都觉得逻辑非常简单,无法就是一个分页查询而已. 问题就出在这个分页查询上. 为了说明当时问题发生的情景,我模拟了一 ...
DataTable列查询加排序
DataTable列查询加排序 DataRow[] drArray = dt.Select("ANLYCOM_ID='" + chSPrdtStblAnly.AnlyComId + ...
【Cloud Computing】Hadoop环境安装、基本命令及MapReduce字数统计程序
[Cloud Computing]Hadoop环境安装.基本命令及MapReduce字数统计程序 1.虚拟机准备 1.1 模板机器配置 1.1.1 主机配置 IP地址:在学校校园网Wifi下连接下 V ...
mysql 分组统计、排序、取前N条记录解决方案
需要在mysql中解决记录的分组统计.排序,并抽取前10条记录的功能.现已解决,解决方案如下: 1)表结构 CREATE TABLE `policy_keywords_rel` ( `id` int( ...
Mapreduce的排序（全局排序、分区加排序、Combiner优化）
一.MR排序的分类 1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的: 2.全局排序: 3.辅助排序:再第一次排序后经过分区再排序一次: 4.二次排序: ...
PHP几个几十个G大文件数据统计并且排序处理
诸多大互联网公司的面试都会有这么个问题,有个4G的文件,如何用只有1G内存的机器去计算文件中出现次数最多的数字(假设1行是1个数组,例如QQ号码).如果这个文件只有4B或者几十兆,那么最简单的办法就 ...
MapReduce应用案例--简单排序
1. 设计思路在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的. MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类 ...

随机推荐

Eclipse,IDEA自动生成相应对象接收方法返回值的快捷键
@Service public class ItemServiceImpl implements ItemService { @Autowired private TbItemMapper itemM ...
Android AIDL-跨进程
Android在设计理念上强调组件化,组件之间的依赖性很小.我们往往发一个Intent请求就可以启动另一个应用的Activity,或者一个你不知道在哪个进程的Service,或者可以注册一个广播,只要 ...
PHP大神的十大优良习惯
概述:通往PHP大神的道路上,应该保持优良的传统和习惯. 1.多阅读手册和源代码没什么比阅读手册更值得强调的事了–仅仅通过阅读手册你就可以学习到很多东西,特别是很多有关于字符串和数组的函数.就在这些 ...
java web 下实现文件下载
来自:http://blog.csdn.net/longshengguoji/article/details/39433307 需求:实现一个具有文件下载功能的网页,主要下载压缩包和图片两种实现方法 ...
今天晚上中国互联网被Struts2漏洞血洗
Apache官方今天晚上发布安全公告(官方编号S2-032/CVE编号CVE-2016-3081),Apache Struts2服务在开启动态方法调用(DMI)的情况下,可以被远程执行任意命令,安全威 ...
heatmap.2
heatmap.2 {gplots} R Documentation Enhanced Heat Map Description A heat map is a false color image ( ...
1934. Black Spot（ｓｐｆａ）
1934 水题 RE了N久后来发现是无向图 #include <iostream> #include<cstring> #include<algorithm> # ...
好用的工具之一 ---- Sublime Text
官网地址和详细解释:http://www.sublimetext.com/ 异次元的一些更详细的个人体验细节:http://www.iplaysoft.com/sublimetext.html
BZOJ2482: [Spoj1557] Can you answer these queries II
题解: 从没见过这么XXX的线段树啊... T_T 我们考虑离线做,按1-n一个一个插入,并且维护区间[ j,i](i为当前插入的数)j<i的最优值. 但这个最优值!!! 我们要保存历史的最优值 ...
模仿 "淘宝彩票" 的随机选球投注效果！
我个人比较喜欢看网页的效果,前几天看了淘宝的“淘宝彩票”,今天仿造做了一个,我觉得比淘宝的体验要好. 查看 “淘宝彩票” 的网页源码发现,主要是用到了Css3 transform 的 Matrix 来 ...

MapReduce TopK统计加排序

MapReduce TopK统计加排序的更多相关文章

随机推荐

热门专题