转自:http://rangerwolf.iteye.com/blog/2119096

题外话:

《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~

进入正题。 这个题目是《Hadoop in Action》 上面的一道题目,求出Top K的值。

我自己随便弄了一个输入文件:

  1. g   445
  2. a   1117
  3. b   222
  4. c   333
  5. d   444
  6. e   123
  7. f   345
  8. h   456

讲讲我的思路:

对于Top K的问题,首先要在每个block/分片之中找到这部分的Top K。并且由于只能输出一次,所以输出的工作需要在cleanup方法之中进行。为了简单,使用的是java之中的TreeMap,因为这个数据结构天生就带有排序功能。 而Reducer的工作流程跟Map其实是完全一致的,只是光Map一步还不够,所以只能再加一个Reduce步骤。

最终输出的格式为如下:(K=2)

  1. 1117    a
  2. 456    g

所以需要使用map。 如果只需要输出大小的话,直接使用TreeSet会更高效一点。

下面是实现的代码:

  1. package hadoop_in_action_exersice;
  2. import java.io.IOException;
  3. import java.util.TreeMap;
  4. import org.apache.hadoop.conf.Configuration;
  5. import org.apache.hadoop.fs.Path;
  6. import org.apache.hadoop.io.IntWritable;
  7. import org.apache.hadoop.io.LongWritable;
  8. import org.apache.hadoop.io.Text;
  9. import org.apache.hadoop.mapreduce.Job;
  10. import org.apache.hadoop.mapreduce.Mapper;
  11. import org.apache.hadoop.mapreduce.Reducer;
  12. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  13. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
  14. public class TopK {
  15. public static final int K = 2;
  16. public static class KMap extends Mapper<LongWritable, Text, IntWritable, Text> {
  17. TreeMap<Integer, String> map = new TreeMap<Integer, String>();
  18. public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
  19. String line = value.toString();
  20. if(line.trim().length() > 0 && line.indexOf("\t") != -1) {
  21. String[] arr = line.split("\t", 2);
  22. String name = arr[0];
  23. Integer num = Integer.parseInt(arr[1]);
  24. map.put(num, name);
  25. if(map.size() > K) {
  26. map.remove(map.firstKey());
  27. }
  28. }
  29. }
  30. @Override
  31. protected void cleanup(
  32. Mapper<LongWritable, Text, IntWritable, Text>.Context context)
  33. throws IOException, InterruptedException {
  34. for(Integer num : map.keySet()) {
  35. context.write(new IntWritable(num), new Text(map.get(num)));
  36. }
  37. }
  38. }
  39. public static class KReduce extends Reducer<IntWritable, Text, IntWritable, Text> {
  40. TreeMap<Integer, String> map = new TreeMap<Integer, String>();
  41. public void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
  42. map.put(key.get(), values.iterator().next().toString());
  43. if(map.size() > K) {
  44. map.remove(map.firstKey());
  45. }
  46. }
  47. @Override
  48. protected void cleanup(
  49. Reducer<IntWritable, Text, IntWritable, Text>.Context context)
  50. throws IOException, InterruptedException {
  51. for(Integer num : map.keySet()) {
  52. context.write(new IntWritable(num), new Text(map.get(num)));
  53. }
  54. }
  55. }
  56. public static void main(String[] args) {
  57. // TODO Auto-generated method stub
  58. Configuration conf = new Configuration();
  59. try {
  60. Job job = new Job(conf, "my own word count");
  61. job.setJarByClass(TopK.class);
  62. job.setMapperClass(KMap.class);
  63. job.setCombinerClass(KReduce.class);
  64. job.setReducerClass(KReduce.class);
  65. job.setOutputKeyClass(IntWritable.class);
  66. job.setOutputValueClass(Text.class);
  67. FileInputFormat.setInputPaths(job, new Path("/home/hadoop/DataSet/Hadoop/WordCount-Result"));
  68. FileOutputFormat.setOutputPath(job, new Path("/home/hadoop/DataSet/Hadoop/TopK-output1"));
  69. System.out.println(job.waitForCompletion(true));
  70. } catch (IOException e) {
  71. // TODO Auto-generated catch block
  72. e.printStackTrace();
  73. } catch (ClassNotFoundException e) {
  74. // TODO Auto-generated catch block
  75. e.printStackTrace();
  76. } catch (InterruptedException e) {
  77. // TODO Auto-generated catch block
  78. e.printStackTrace();
  79. }
  80. }
  81. }

TopK的一个简单实现的更多相关文章

  1. 哪种缓存效果高?开源一个简单的缓存组件j2cache

    背景 现在的web系统已经越来越多的应用缓存技术,而且缓存技术确实是能实足的增强系统性能的.我在项目中也开始接触一些缓存的需求. 开始简单的就用jvm(java托管内存)来做缓存,这样对于单个应用服务 ...

  2. 在Openfire上弄一个简单的推送系统

    推送系统 说是推送系统有点大,其实就是一个消息广播功能吧.作用其实也就是由服务端接收到消息然后推送到订阅的客户端. 思路 对于推送最关键的是服务端向客户端发送数据,客户端向服务端订阅自己想要的消息.这 ...

  3. ASP.NET Aries 入门开发教程2:配置出一个简单的列表页面

    前言: 朋友们都期待我稳定地工作,但创业公司若要躺下,也非意念可控. 若人生注定了风雨飘摇,那就雨中前行了. 最机开始看聊新的工作机会,欢迎推荐,创业公司也可! 同时,趁着自由时间,抓紧把这系列教程给 ...

  4. 计算机程序的思维逻辑 (60) - 随机读写文件及其应用 - 实现一个简单的KV数据库

    57节介绍了字节流, 58节介绍了字符流,它们都是以流的方式读写文件,流的方式有几个限制: 要么读,要么写,不能同时读和写 不能随机读写,只能从头读到尾,且不能重复读,虽然通过缓冲可以实现部分重读,但 ...

  5. 如何开发一个简单的HTML5 Canvas 小游戏

    原文:How to make a simple HTML5 Canvas game 想要快速上手HTML5 Canvas小游戏开发?下面通过一个例子来进行手把手教学.(如果你怀疑我的资历, A Wiz ...

  6. CSharpGL(24)用ComputeShader实现一个简单的图像边缘检测功能

    CSharpGL(24)用ComputeShader实现一个简单的图像边缘检测功能 效果图 这是红宝书里的例子,在这个例子中,下述功能全部登场,因此这个例子可作为使用Compute Shader的典型 ...

  7. CSharpGL(23)用ComputeShader实现一个简单的ParticleSimulator

    CSharpGL(23)用ComputeShader实现一个简单的ParticleSimulator 我还没有用过Compute Shader,所以现在把红宝书里的例子拿来了,加入CSharpGL中. ...

  8. 应用OpenMP的一个简单的设计模式

    小喵的唠叨话:最近很久没写博客了,一是因为之前写的LSoftmax后馈一直没有成功,所以在等作者的源码.二是最近没什么想写的东西.前两天,在预处理图片的时候,发现处理200w张图片,跑了一晚上也才处理 ...

  9. 用php实现一个简单的链式操作

    最近在读<php核心技术与最佳实践>这本书,书中第一章提到用__call()方法可以实现一个简单的字符串链式操作,比如,下面这个过滤字符串然后再求长度的操作,一般要这么写: strlen( ...

随机推荐

  1. PLSQL_统计信息系列06_统计信息的历史和日志

    20150506 Created By BaoXinjian

  2. mysql InnoDB 的行锁

    表的引擎类型必须为InnoDB才可以进行此操作. 相关链接:http://www.cnblogs.com/CyLee/p/5579672.html 共享锁:单独运行前两句,然后新建一个会话使用第三句. ...

  3. composer安装第三方的库packagist.org(laravel框架引入第三方库)

    建立composer.json composer require phpoffice/phpexcel //安装一个excel扩展库 composer require gregwar/captcha ...

  4. 把git上的larave项目通过SourceTree安装上再通过composer安装依赖库

    1.项目地址克隆 https://gitee.com/fps2tao/laravel5.5-alitaobao.git 通过SourceTree工具下载到本地 2.在命令行方式打开项目地址安装依赖库( ...

  5. MYSQL 更改数据库data存储目录 创建用户 创建权限 设置远程访问的权限.

    一. 怎么更改数据库data存储目录:  1. 安装MYSQL. 2. 切换到 C:\Program Files\MySQL\MySQL Server 5.6 3. 新建my.ini. 加入如下配置: ...

  6. JavaScript经常使用对象

    常见的几种对象及其属性和使用方法: (1).Array 对象 Array 对象用于在单个的变量中存储多个值. 创建 Array 对象的语法: new Array(); new Array(size); ...

  7. PCIe调试心得_DMA part3

    作者: East  FPGA那点事儿 上一章讲述了PCIe总线如何提高DMA的效率. 本章以服务器常用的4通道1000M以太网卡为例讲述如何实现多个虚拟DMA通道. 1.多通道DMA发 4通道以太网卡 ...

  8. android framework-下载Android系统源代码

    □ apt-get install git-core curl #先下载这两个工具 □ mkdir android-froyo #建立下载目录 □ cd android-froyo #进入下载目录 □ ...

  9. RotateWorldTest对层动作

    //创建类的对象,并返回相应类的指针 /** * define a create function for a specific type, such as CCLayer * @__TYPE__ c ...

  10. EXCEL多列名称组合成一列名称