hadoop学习笔记之倒排索引

开发工具：eclipse

目标：对下面文档phone_numbers进行倒排索引：

13599999999 10086
13899999999 120
13944444444 13800138000
13722222222 13800138000
18800000000 120
13722222222 10086
18944444444 10086

代码：

 import java.io.IOException;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 import org.apache.hadoop.io.*;

 import org.apache.hadoop.mapreduce.*;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 public class Test_1 extends Configured implements Tool

 {

     enum Counter

     {

         LINESKIP, // error lines

     }

     public static class Map extends Mapper<LongWritable, Text, Text, Text>

     {

         public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException

         {

             String line = value.toString(); // read original data

             try

             {

                 // process data

                 String[] lineSplit = line.split(" ");

                 String anum = lineSplit[0];

                 String bnum = lineSplit[1];

                 context.write(new Text(bnum), new Text(anum)); // map output

             }

             catch(java.lang.ArrayIndexOutOfBoundsException e)

             {

                 context.getCounter(Counter.LINESKIP).increment(1);

                 return;

             }

         }

     }

     public static class Reduce extends Reducer<Text, Text, Text, Text>

     {

         public void reduce(Text key, Iterable<Text>values, Context context)throws IOException, InterruptedException

         {

             String valueString;

             String out = "";

             for (Text value : values)

             {

                 valueString = value.toString();

                 out += valueString + "|";

             }

             context.write(key, new Text(out));    // reduce output

         }

     }

     public int run(String[] args)throws Exception

     {

         Configuration conf = getConf();

         Job job = new Job(conf, "Test_1");  // task name

         job.setJarByClass(Test_1.class);    // specified task

         FileInputFormat.addInputPath(job, new Path(args[0]));  // input path

         FileOutputFormat.setOutputPath(job, new Path(args[1])); // output path

         job.setMapperClass(Map.class);

         job.setReducerClass(Reduce.class);

         job.setOutputFormatClass(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.waitForCompletion(true);

         return job.isSuccessful() ? 0 : 1;

     }

     public static void main(String[] args)throws Exception

     {

         int res = ToolRunner.run(new Configuration(), new Test_1(), args);

         System.exit(res);

     }

 }

运行结果：

hadoop学习笔记之倒排索引的更多相关文章

Hadoop学习笔记(8) ——实战做个倒排索引
Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...
Hadoop学习笔记(7) ——高级编程
Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hadoop学习笔记(2)
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...
Hadoop学习笔记(2) ——解读Hello World
Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...
Hadoop学习笔记(1) ——菜鸟入门
Hadoop学习笔记(1) ——菜鸟入门 Hadoop是什么?先问一下百度吧: [百度百科]一个分布式系统基础架构,由Apache基金会所开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序. ...

随机推荐

OSX 10.10安装教程。
现在苹果已经放出了OS X 10.9 Mavericks第一个开发者预览版,从Mac App Store中获得的安装程序,可以在10.8的系统中直接进行升级,原有文件都会保留.但是要想制作成一个10. ...
PHP 关于回调的用法
class aClass { public static function directWrite($message) { echo 'this is a static function from a ...
seo技巧-2015/10/05
1.每页都要有它自己的文件名,并且有它自己的上级文件夹和它自己相关关键字. 2.建议在每页上使用一个的H1标签.我也试着使用许多H2 或H3的标签在页面内辅助构成正文内容. 3. 有时花费一点钱帮助你 ...
封装cookie.js、EventUtil.js、
最近学习了javascript,封装好的东西看起来舒服,以备需要的时候拉出来,jquery对javascript做了很好的封装!以后会多用jquery多些 var CookieUtil = { get ...
django 搭建自己的博客
原文链接:http://www.errdev.com/post/4/ 每一个爱折腾的程序员都有自己的博客,好吧,虽然我不太喜欢写博客,但是这样骚包的想法却不断涌现.博客园虽好,可以没有完全的掌控感,搭 ...
Spark on Yarn遇到的几个问题
1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn ...
Strider 持续集成(gitlab)
Strider安装后运行: Mac: strider Ubuntu: bin/strider 本地运行时浏览器访问: http://127.0.0.1:3000 其他服务器:服务器地址 + 端口号(3 ...
第三百三十五天 how can I 坚持
晚上回来看了个奥斯卡影片,<疯狂的麦克斯-狂暴之路>,挺震撼的场面.导演确实挺厉害,不知道是怎么想象出来的. 睡觉,明天继续.
Python 代码性能优化技巧（转）
原文:Python 代码性能优化技巧 Python 代码优化常见技巧代码优化能够让程序运行更快,它是在不改变程序运行结果的情况下使得程序的运行效率更高,根据 80/20 原则,实现程序的重构.优化. ...
Python使用UUID库生成唯一ID（转）
原文:http://www.cnblogs.com/dkblog/archive/2011/10/10/2205200.html 资料: Python官方Doc:<20.15. uuid — U ...

hadoop学习笔记之倒排索引

hadoop学习笔记之倒排索引的更多相关文章

随机推荐

热门专题