Hadoop学习笔记(8)

——实战 做个倒排索引

倒排索引是文档检索系统中最常用数据结构。根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index)。结构如下:

这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数。现在我们假定输入的是以下的文件清单:

T1 : hello world hello china

T2 : hello hadoop

T3 : bye world bye hadoop bye bye

输入这些文件,我们最终将会得到这样的索引文件:

bye    T3:4;

china    T1:1;

hadoop    T2:1;T3:1;

hello    T1:2;T2:1;

world    T1:1;T3:1;

接下来,我们就是要想办法利用hadoop来把这个输入,变成输出。从上一章中,其实也就是分析如何将hadoop中的步骤个性化,让其工作。整个步骤中,最主要的还是map和reduce过程,其它的都可称之为配角,所以我们先来分析下map和reduce的过程将会是怎样?

首先是Map的过程。Map的输入是文本输入,一条条的行记录进入。输出呢?应该包含:单词、所在文件、单词数。 Map的输入是key-value。 那这三个信息谁是key,谁是value呢? 数量是需要累计的,单词数肯定在value里,单词在key中,文件呢?不同文件内的相同单词也不能累加的,所以这个文件应该在key中。这样key中就应该包含两个值:单词和文件,value则是默认的数量1,用于后面reduce来进行合并。

所以Map后的结果应该是这样的:

Key value

Hello;T1 1

Hello:T1 1

World:T1 1

China:T1 1

Hello:T2 1

即然这个key是复合的,所以常归的类型已经不能满足我们的要求了,所以得设置一个复合健。复合健的写法在上一章中描述到了。所以这里我们就直接上代码:

  1. public static class MyType implements WritableComparable<MyType>{
  2.       public MyType(){
  3.       }
  4.  
  5.       private String word;
  6.       public String Getword(){return word;}
  7.       public void Setword(String value){ word = value;}
  8.  
  9.       private String filePath;
  10.       public String GetfilePath(){return filePath;}
  11.       public void SetfilePath(String value){ filePath = value;}
  12.  
  13.       @Override
  14.       public void write(DataOutput out) throws IOException {
  15.          out.writeUTF(word);
  16.          out.writeUTF(filePath);
  17.       }
  18.  
  19.       @Override
  20.       public void readFields(DataInput in) throws IOException {
  21.          word = in.readUTF();
  22.          filePath = in.readUTF();
  23.       }
  24.  
  25.       @Override
  26.       public int compareTo(MyType arg0) {
  27.             if (word != arg0.word)
  28.                return word.compareTo(arg0.word);
  29.          return filePath.compareTo(arg0.filePath);
  30.       }
  31. }

有了这个复合健的定义后,这个Map函数就好写了:

  1. public static class InvertedIndexMapper extends
  2.          Mapper<Object, Text, MyType, Text> {
  3.  
  4.       public void map(Object key, Text value, Context context)
  5.             throws InterruptedException, IOException {
  6.  
  7.          FileSplit split = (FileSplit) context.getInputSplit();
  8.          StringTokenizer itr = new StringTokenizer(value.toString());
  9.  
  10.          while (itr.hasMoreTokens()) {
  11.             MyType keyInfo = new MyType();
  12.             keyInfo.Setword(itr.nextToken());
  13.             keyInfo.SetfilePath(split.getPath().toUri().getPath().replace("/user/zjf/in/", ""));
  14.             context.write(keyInfo, "));
  15.          }
  16.       }
  17.    }

注意:第13行,路径是全路径的,为了看起来方便,我们把目录替换掉,直接取文件名。

有了Map,接下来就可以考虑Recude了,以及在Map之后的Combine。Map的输出的Key类型是MyType,所以Reduce以及Combine的输入就必须是MyType了。

如果直接将Map的结果送到Reduce后,发现还需要做大量的工作来将Key中的单词再重排一下。所以我们考虑在Reduce前加一个Combine,先将数量进行一轮合并。

这个Combine将会输入下面的值:

Key value

bye    T3:4;

china    T1:1;

hadoop    T2:1;

hadoop    T3:1;

hello    T1:2;

hello    T2:1;

world    T1:1;

world    T3:1;

代码如下:

  1. public static class InvertedIndexCombiner extends
  2.          Reducer<MyType, Text, MyType, Text> {
  3.  
  4.       public void reduce(MyType key, Iterable<Text> values, Context context)
  5.             throws InterruptedException, IOException {
  6.          int sum = 0;
  7.          for (Text value : values) {
  8.             sum += Integer.parseInt(value.toString());
  9.          }
  10.          context.write(key, new Text(key.GetfilePath()+ ":" + sum));
  11.       }
  12.    }

有了上面Combine后的结果,再进行Reduce就容易了,只需要将value结果进行合并处理:

  1. public static class InvertedIndexReducer extends
  2.          Reducer<MyType, Text, Text, Text> {
  3.  
  4.       public void reduce(MyType key, Iterable<Text> values, Context context)
  5.             throws InterruptedException, IOException {
  6.          Text result = new Text();
  7.  
  8.          String fileList = new String();
  9.          for (Text value : values) {
  10.             fileList += value.toString() + ";";
  11.          }
  12.          result.set(fileList);
  13.  
  14.          context.write(new Text(key.Getword()), result);
  15.       }
  16.    }

    经过这个Reduce处理,就得到了下面的结果:

bye    T3:4;

china    T1:1;

hadoop    T2:1;T3:1;

hello    T1:2;T2:1;

world    T1:1;T3:1;

最后,MapReduce函数都写完后,就可以挂在Job中运行了。

  1. public static void main(String[] args) throws IOException,
  2.          InterruptedException, ClassNotFoundException {
  3.       Configuration conf = new Configuration();
  4.       System.out.println("url:" + conf.get("fs.default.name"));
  5.  
  6.       Job job = new Job(conf, "InvertedIndex");
  7.       job.setJarByClass(InvertedIndex.class);
  8.       job.setMapperClass(InvertedIndexMapper.class);
  9.       job.setMapOutputKeyClass(MyType.class);
  10.       job.setMapOutputValueClass(Text.class);
  11.  
  12.       job.setCombinerClass(InvertedIndexCombiner.class);
  13.       job.setReducerClass(InvertedIndexReducer.class);
  14.  
  15.       job.setOutputKeyClass(Text.class);
  16.       job.setOutputValueClass(Text.class);
  17.  
  18.       Path path = new Path("out");
  19.       FileSystem hdfs = FileSystem.get(conf);
  20.       if (hdfs.exists(path))
  21.          hdfs.delete(path, true);
  22.  
  23.       FileInputFormat.addInputPath(job, new Path("in"));
  24.       FileOutputFormat.setOutputPath(job, new Path("out"));
  25.       job.waitForCompletion(true);
  26. }

注:这里为了调试方便,我们把in和out都写死,不用传入执行参数了,并且,每次执行前,判断out文件夹是否存在,如果存在则删除。

Hadoop学习笔记(8) ——实战 做个倒排索引的更多相关文章

  1. 十六、Hadoop学习笔记————Zookeeper实战

    所有服务器都会先将自己的服务器信息注册到servers中,然后每台服务器都会尝试注册master,哪台注册成功,则哪台就是master服务器. 所有的服务器都会关注master节点的删除事件,这样通过 ...

  2. Hadoop学习笔记系列

    Hadoop学习笔记系列   一.为何要学习Hadoop? 这是一个信息爆炸的时代.经过数十年的积累,很多企业都聚集了大量的数据.这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼 ...

  3. Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

    自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

  4. Hadoop学习笔记(6) ——重新认识Hadoop

    Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

  5. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  6. Hadoop学习笔记(1) ——菜鸟入门

    Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...

  7. Hadoop学习笔记(两)设置单节点集群

    本文描写叙述怎样设置一个单一节点的 Hadoop 安装.以便您能够高速运行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 參考官方文档:Hadoo ...

  8. Hadoop学习笔记(1)(转)

    Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...

  9. Hadoop学习笔记(9) ——源码初窥

    Hadoop学习笔记(9) ——源码初窥 之前我们把Hadoop算是入了门,下载的源码,写了HelloWorld,简要分析了其编程要点,然后也编了个较复杂的示例.接下来其实就有两条路可走了,一条是继续 ...

随机推荐

  1. 内置函数enumerate()使用

    描述 enumerate() 函数用于将一个可遍历的数据对象(如列表.元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中. Python 2.3. 以上版本可用,2. ...

  2. AngularJS入门讲解4:多视图,事件绑定,$resource服务讲解

    上一课,大家知道,手机详细模板我们没有写出来,使用的是一个占位模板. 这一课,我们先实现手机详细信息视图,这个视图会在用户点击手机列表中的一部手机时被显示出来. 为了实现手机详细信息视图,我们将会使用 ...

  3. unittest测试框架和测试报告的输出实例(一)

    我们整个自动化才是报告的环节基本上分为三个部分: 1.测试用例的准备 2.测试用例的执行 3.测试报告的输出 1.测试用例的准备: 那我们就以搜孤网页做一个简单的用例: from selenium i ...

  4. (转)使用VS实现XML2CS

    转自 StackOverFlow Method 1 XSD tool Suppose that you have your XML file in this location C:\path\to\x ...

  5. P4915 帕秋莉的魔导书

    题目链接 题意分析 当前等级为\(x\)的魔法书会对等级在\([x,inf]\)的所有人造成\(y\)的影响 所以除了求平均值之外 就是区间修改区间求和 需要使用动态开点 + 标记永久化 需要注意的是 ...

  6. 3.3.1 Validations

    摘要: 出处:黑洞中的奇点 的博客 http://www.cnblogs.com/kelvin19840813/ 您的支持是对博主最大的鼓励,感谢您的认真阅读.本文版权归作者所有,欢迎转载,但请保留该 ...

  7. float数据在内存中存储方式

    float类型数字在计算机中用4个字节存储.遵循IEEE-754格式标准: 一个浮点数有3部分组成: 符号部分,0 表示正,1表示负. 底数部分 使用二进制数来表示此浮点数的实际值,底数部分实际是占用 ...

  8. /proc/xxx/maps简要记录

    定位内存泄漏基本上是从宏观到微观,进而定位到代码位置. 从/proc/meminfo可以看到整个系统内存消耗情况,使用top可以看到每个进程的VIRT(虚拟内存)和RES(实际占用内存),基本上就可以 ...

  9. 爬虫之chrome浏览器的使用方法

    chrome浏览器使用方法介绍 1. 新建隐身窗口 1.1 为什么需要新建隐身窗口 在打开隐身窗口的时候,第一次请求某个网站是没有携带cookie的,和代码请求一个网站一样,不携带cookie.这样就 ...

  10. 蓝桥杯-学霸的迷宫(BFS+记录操作)

     算法提高 学霸的迷宫   时间限制:1.0s   内存限制:256.0MB      问题描述 学霸抢走了大家的作业,班长为了帮同学们找回作业,决定去找学霸决斗.但学霸为了不要别人打扰,住在一个城堡 ...