[Hadoop in Action] 第4章编写MapReduce基础程序

基于hadoop的专利数据处理示例
MapReduce程序框架
用于计数统计的MapReduce基础程序
支持用脚本语言编写MapReduce程序的hadoop流式API
用于提升性能的Combiner

1、获取专利数据集

获取网址：http://www.nber.org/patents/

使用数据集：cite75_99.txt和apat63_99.txt

2、构建MapReduce程序的基础模版

代码清单典型hadoop程序模版

 import java.io.IOException;

 import java.util.Iterator;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapred.FileInputFormat;

 import org.apache.hadoop.mapred.FileOutputFormat;

 import org.apache.hadoop.mapred.JobClient;

 import org.apache.hadoop.mapred.JobConf;

 import org.apache.hadoop.mapred.KeyValueTextInputFormat;

 import org.apache.hadoop.mapred.MapReduceBase;

 import org.apache.hadoop.mapred.Mapper;

 import org.apache.hadoop.mapred.OutputCollector;

 import org.apache.hadoop.mapred.Reducer;

 import org.apache.hadoop.mapred.Reporter;

 import org.apache.hadoop.mapred.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 public class MyJob extends Configured implements Tool {

     public static class MapClass extends MapReduceBase

         implements Mapper<Text, Text, Text, Text> {

         public void map(Text key, Text value,

                         OutputCollector<Text, Text> output,

                         Reporter reporter) throws IOException {

             output.collect(value, key);

         }

     }

     public static class Reduce extends MapReduceBase

         implements Reducer<Text, Text, Text, Text> {

         public void reduce(Text key, Iterator<Text> values,

                            OutputCollector<Text, Text> output,

                            Reporter reporter) throws IOException {

             String csv = "";

             while (values.hasNext()) {

                 if (csv.length() > 0) csv += ",";

                 csv += values.next().toString();

             }

             output.collect(key, new Text(csv));

         }

     }

     public int run(String[] args) throws Exception {

         Configuration conf = getConf();

         JobConf job = new JobConf(conf, MyJob.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         FileInputFormat.setInputPaths(job, in);

         FileOutputFormat.setOutputPath(job, out);

         job.setJobName("MyJob");

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormat(KeyValueTextInputFormat.class);

         job.setOutputFormat(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.set("key.value.separator.in.input.line", ",");

         JobClient.runJob(job);

         return 0;

     }

     public static void main(String[] args) throws Exception {

         int res = ToolRunner.run(new Configuration(), new MyJob(), args);

         System.exit(res);

     }

 }

框架的核心在run()方法中，也称为driver。它实例化、配置并传递一个JobConf对象命名的作业给JobClient.runJob()以启动MapReduce作业。JobConf对象将保持作业运行所需的全部配置参数。Driver需要在作业中为每个作业定制基本参数，包括输入路径、输出路径、Mapper类和Reducer类。另外，每个作业可以重置默认的作业属性，例如InputFormat、OutputFormat等，也可以调用JobConf对象中的set()方法填充人意配置参数。一旦传递JobConf对象到JobClient.runJob()，它就被视为作业的总体规划，成为决定这个作业如何运作的蓝本。

JobConf对象有许多参数，但我们并不希望全部的参数都通过编写driver来设置，可以把Hadoop安装时的配置文件作为一个很好的起点。同时，用户可能希望在命令行启动一个作业时传递额外的参数来改变作业配置。Driver可以通过自定义一组命令并自行处理用户参数，来支持用户修改其中的一些配置。因为经常需要做这样的任务，hadoop框架便提供了ToolRunner、Tool和Configured来简化其实现。

通过使用ToolRunner，MyJob可以自动支持下表中的选项：

选项	描述
-conf <configuration file>	指定一个配置文件
-D <property=value>	给JobConf属性赋值
-fs <local \| namenode:port>	指定一个NameNode，可以是“local”
-jt <local \| jobtracker:port>	指定一个JobTracker
-files <list of files>	指定一个以逗号分隔的文件列表，用于MapReduce作业。这些文件自动地分布到所有节点，使之可从本地获取
-libjars <list of jars>	指定一个以逗号分隔的jar文件列表，使之包含在所有任务JVM的classpath中
-archives <list of archives>	指定一个以逗号分隔的存档文件列表，使之可以在所有任务节点上打开

Mapper类和Reducer类如下所示：

public static class MapClass extends MapReduceBase

implements Mapper<k1, v1, k2, v2> {

public void map(k1 key, v1 value, OutputCollector<k2, v2> output, Reporter reporter) throws IOException { }

}

public static class Reducer extends MapReduceBase

implements Mapper<k2, v2, k3, v3> {

public void map(k2 key, Iterator<v2> values, OutputCollector<k3, v3> output, Reporter reporter) throws IOException { }

}

Mapper类的核心操作为map()方法，Reducer类为reduce()方法。每个map()方法的调用分别被赋予一个类型为k1和v1的键/值对。这个键/值对由mapper生成，并通过OutputCollector对象的collect()方法来输出。你需要在map()方法中的合适位置调用：

output.collect((k2) k, (v2) v);

在Reudcer中reduce()方法的每次调用均被赋予k2类型的键，以及v2类型的一组值。注意它必须与mapper中使用的k2和v2类型相同。Reduce()方法可能会循环遍历v2类型的所有值：

while (values.hasNext()) {

v2 v = values.next();

...

}

Reduce()方法还使用OutputCollector来搜集其键/值的输出，它们的类型为k3/v3。在reduce()方法中可以调用：

output.collect((k3) k, (v3) v);

除了在Mapper和Reducer之间保持k2和v2的类型一致，还需要确保在Mapper和Reducer中使用的键值类型与在driver中设置的输入格式、输出键的类，以及输出值的类保持一致。

3、计数

可以修改获取反向引用索引的程序来输出技术结果，只需要修改Reducer。如果选择让计数结果输出的类型为IntWritable，就需要在Reducer代码中的3个地方进行声明：

public static class Reduce extends MapReduceBase

implements Reducer<Text, Text, Text, IntWritable> {

public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, IntWritable> output,

Reporter reporter) throws IOException {

int count = 0;

while (values.hasNext()) {

values.next();

count++;

}

output.collect(key, new IntWritable(count));

}

编写MapReduce程序的第一步是了解数据流；
基于对数据流的理解，可以为输入、中间结果、输出的键/值对k1、v1、k2、v2、k3和v3设定类型；
根据数据流河数据类型，很容易能够理解程序代码。

代码清单 CitationHistogram.java

 import java.io.IOException;

 import java.util.Iterator;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapred.FileInputFormat;

 import org.apache.hadoop.mapred.FileOutputFormat;

 import org.apache.hadoop.mapred.JobClient;

 import org.apache.hadoop.mapred.JobConf;

 import org.apache.hadoop.mapred.KeyValueTextInputFormat;

 import org.apache.hadoop.mapred.MapReduceBase;

 import org.apache.hadoop.mapred.Mapper;

 import org.apache.hadoop.mapred.OutputCollector;

 import org.apache.hadoop.mapred.Reducer;

 import org.apache.hadoop.mapred.Reporter;

 import org.apache.hadoop.mapred.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 public class CitationHistogram extends Configured implements Tool {

     public static class MapClass extends MapReduceBase

         implements Mapper<Text, Text, IntWritable, IntWritable> {

         private final static IntWritable uno = new IntWritable(1);

         private IntWritable citationCount = new IntWritable();

         public void map(Text key, Text value,

                         OutputCollector<IntWritable, IntWritable> output,

                         Reporter reporter) throws IOException {

             citationCount.set(Integer.parseInt(value.toString()));

             output.collect(citationCount, uno);

         }

     }

     public static class Reduce extends MapReduceBase

         implements Reducer<IntWritable,IntWritable,IntWritable,IntWritable>

     {

         public void reduce(IntWritable key, Iterator<IntWritable> values,

                            OutputCollector<IntWritable, IntWritable>output,

                            Reporter reporter) throws IOException {

             int count = 0;

             while (values.hasNext()) {

                 count += values.next().get();

             }

             output.collect(key, new IntWritable(count));

         }

     }

     public int run(String[] args) throws Exception {

         Configuration conf = getConf();

         JobConf job = new JobConf(conf, CitationHistogram.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         FileInputFormat.setInputPaths(job, in);

         FileOutputFormat.setOutputPath(job, out);

         job.setJobName("CitationHistogram");

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormat(KeyValueTextInputFormat.class);

         job.setOutputFormat(TextOutputFormat.class);

         job.setOutputKeyClass(IntWritable.class);

         job.setOutputValueClass(IntWritable.class);

         JobClient.runJob(job);

         return 0;

     }

     public static void main(String[] args) throws Exception {

         int res = ToolRunner.run(new Configuration(),

                                  new CitationHistogram(),

                                  args);

         System.exit(res);

     }

 }

4、适应Hadoop API的改变

（1）首先值得注意的是，在新的API中org.apache.hadoop.mapred的许多类都被移走了。多数被放入org.apache.hadoop.mapreduce,而且类库都放在org.apache.hadoop.mapreduce.lib的一个包中。当转为使用新API时，org.apache.hadoop.mapred下所有类的import声明就不存在了，它们都被弃用。

（2）新API中最有益的变化是引入了上下文对象context。最直接的影响在于替换了map()和reduce()方法中使用的OutputCollector和Reporter对象。深远的影响是统一了应用代码和MapReduce框架之间的通信，并固定了Mapper和Reduce的API，使得添加新功能时不会改变基本方法签名。

（3）新的map()和reduce()方法分别被包含在新的抽象类Mapper和Reducer中。它们取代了原始API中的Mapper和Reducer接口。新的抽象类也替换了MapReduceBase类，使之被弃用。

（4）新的map()和Reduce()方法多了一两处细微的改变。它们可以抛出InterruptedException而非单一的IOException。而且，reduce()方法不再以Iterator而以Iterable来接受一个值的列表，这样更容易使用Java的foreach语义来实现迭代。

原始API中的签名

public static class MapClass extends MapReduceBase

implements Mapper<k1, v1, k2, v2> {

public void map(k1 key, v1 value, OutputCollector<k2, v2> output, Reporter reporter) throws IOException { }

}

public static class Reducer extends MapReduceBase

implements Mapper<k2, v2, k3, v3> {

public void map(k2 key, Iterator<v2> values, OutputCollector<k3, v3> output, Reporter reporter) throws IOException { }

}

新API一定程度上对它们做了简化

public static class MapClass extends Mapper<k1, v1, k2, v2> {

public void map(k1 key, v1 value, Context context) throws IOException, InterruptedException { }

}

public static class Reduce extends Reducer<k2, v2, k3, v3> {

public void map(k2 key, Iterable<v2> value, Context context) throws IOException, InterruptedException { }

}

（5）还需要改变driver中的一些内容来支持新的API。在新的API中JobConf和JobClient被替换了。它们的功能已经被放入Configuration类和一个新的类Job中。Configuration类纯粹为了配置作业而设，而Job类负责定义和控制一个作业的执行。作业的构造和提交执行现在放在Job中。

原API

JobConf job = new JobConf(conf, MyJob.calss);

job.setJobName(“MyJob");

JobClient.runJob(job);

新API

Job job = new Job(conf, “MyJob”);

job.setJarByClass(MyJob.class);

System.exit(job.waitForCompletion(true)?0:1);

代码清单基于版本0.20新API重写的hadoop基础程序模版

 import java.io.IOException;

 import java.util.Iterable;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 public class MyJob extends Configured implements Tool {

     public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {

         public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

             String[] citation = value.toString().split(",");

             context.write(new Text(citation[1]), new Text(citation[0]));

         }

     }

     public static class Reduce extends Reducer<Text, Text, Text, Text> {

         public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

             String csv = "";

             for (Text val:values) {    //Iterable类型允许foreach循环

                 if (csv.length() > 0) csv += ",";

                 csv += val.toString();

             }

             context.write(key, new Text(csv));

         }

     }

     public int run(String[] args) throws Exception {

         Configuration conf = getConf();

         Job job = new Job(conf, "MyJob");

         job.setJarByClass(MyJob.class);

         Path in = new Path(args[0]);

         Path out = new Path(args[1]);

         FileInputFormat.setInputPaths(job, in);

         FileOutputFormat.setOutputPath(job, out);

         job.setMapperClass(MapClass.class);

         job.setReducerClass(Reduce.class);

         job.setInputFormatClass(TextInputFormat.class);    //兼容的InputFormat类

         job.setOutputFormatClass(TextOutputFormat.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         System.exit(job.waitForCompletion(true)?0:1);

         return 0;

     }

     public static void main(String[] args) throws Exception {

         int res = ToolRunner.run(new Configuration(), new MyJob(), args);

         System.exit(res);

     }

 }

5、Hadoop的Streaming

通过Unix命令使用Streaming
通过脚本使用Streaming
用Streaming处理键/值对
通过Aggregate包使用Streaming

6、使用combiner提升性能

hadoop通过扩展MapReduce框架，在mapper和reducer之间增加了一个combiner。你可以将combiner视为reducer的助手。它致力于减少mapper的输出以降低网络和reducer上的压力。为了使combiner工作，它在数据的转换上必须与reducer等价。

[转载请注明] http://www.cnblogs.com/zhengrunjian/

[Hadoop in Action] 第4章编写MapReduce基础程序的更多相关文章

第 3 章编写 PAM 应用程序和服务
Solaris 开发者安全性指南 Previous: 第 2 章开发特权应用程序 Next: 第 4 章编写使用 GSS-API 的应用程序第 3 章编写 PAM 应用程序和服务可插拔验证模 ...
[Hadoop in Action] 第5章高阶MapReduce
链接多个MapReduce作业执行多个数据集的联结生成Bloom filter 1.链接MapReduce作业 [顺序链接MapReduce作业] mapreduce-1 | mapr ...
[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
[Hadoop in Action] 第1章 Hadoop简介
编写可扩展.分布式的数据密集型程序和基础知识理解Hadoop和MapReduce 编写和运行一个基本的MapReduce程序 1.什么是Hadoop Hadoop是一个开源的框架,可编写和运 ...
[Hadoop in Action] 第6章编程实践
Hadoop程序开发的独门绝技在本地,伪分布和全分布模式下调试程序程序输出的完整性检查和回归测试日志和监控性能调优 1.开发MapReduce程序 [本地模式] 本地模式 ...
[hadoop in Action] 第3章 Hadoop组件
管理HDFS中的文件分析MapReduce框架中的组件读写输入输出数据 1.HDFS文件操作［命令行方式］ Hadoop的文件命令采取的形式为: hadoop fs -cmd < ...
[Hadoop in Action] 第2章初识Hadoop
Hadoop的结构组成安装Hadoop及其3种工作模式:单机.伪分布和全分布用于监控Hadoop安装的Web工具 1.Hadoop的构造模块 (1)NameNode(名字节点) ...
《Hadoop权威》学习笔记五：MapReduce应用程序
一.API的配置---Configuration类 API的配置:Hadoop提供了专门的API对资源进行配置,Configuration类的实例(在org.apache.hadoop.conf包)包 ...
编写mapreduce的程序的套路
https://blog.csdn.net/qq_42881421/article/details/83543926 给出下面6个经典案例: http://www.cnblogs.com/xia520 ...

随机推荐

（实例篇）php 使用redis锁限制并发访问类示例
1.并发访问限制问题对于一些需要限制同一个用户并发访问的场景,如果用户并发请求多次,而服务器处理没有加锁限制,用户则可以多次请求成功. 例如换领优惠券,如果用户同一时间并发提交换领码,在没有加锁限制 ...
javascript中的浮点数运算
解释一下下面代码的输出 console.log(0.1 + 0.2); //0.30000000000000004 console.log(0.1 + 0.2 == 0.3); //false Jav ...
SQL Server 在多个数据库中创建同一个存储过程（Create Same Stored Procedure in All Databases）
一.本文所涉及的内容(Contents) 本文所涉及的内容(Contents) 背景(Contexts) 遇到的问题(Problems) 实现代码(SQL Codes) 方法一:拼接SQL: 方法二: ...
JQuery 加载 CSS、JS 文件
JS 方式加载 CSS.JS 文件: //加载 css 文件 function includeCss(filename) { var head = document.getElementsByTagN ...
Java进击C#——应用开发之WinForm环境
本章简言上一章笔者讲到关于IO文件操作类,了解如何处理文件流.从这一章开始笔者将讲解相对比较高级的知识点.而本章笔者就对WinForm开发的知识点进行讲解和引导.现在很多业务都是面向于B/S模式的开 ...
『.NET Core CLI工具文档』（十二）dotnet-pack
说明:本文是个人翻译文章,由于个人水平有限,有不对的地方请大家帮忙更正. 原文:dotnet-pack 翻译:dotnet-pack 名称 dotnet-pack - 将代码打包成 NuGet 包概 ...
学习EF之贪婪加载和延迟加载(1)
从暑假开始接触code first以来,一直感觉很好用,主要在于开发过程中以业务为中心可以随时修改数据模型生成数据库,还有一个原因就是查询起来很方便这里找了一个以前database first的一段 ...
.net 一些开源的东东
来自网络..版权归网络所有..Antlr ----- Website: http://www.antlr.org/ Copyright: Copyright (c) - Terence Parr Li ...
浅谈Static关键字
1.使用static关键字声明的属性为全局属性未使用static关键字指定city之前,如果需要将Tom,Jack,Mary三人的城市均改成Beijing,需要再次声明三次对象的city为Beiji ...
JavaWeb_day03_员工信息添加修改删除
day03员工的添加,修改,删除修改功能思路 : 点击修改员工数据之后,跳转到单行文本,查询要修改的员工id的全部信息,主键id设置为readonly,其余的都可以修改, 修改之后,提交按钮,提交 ...

[Hadoop in Action] 第4章 编写MapReduce基础程序

[Hadoop in Action] 第4章 编写MapReduce基础程序的更多相关文章

随机推荐

热门专题

[Hadoop in Action] 第4章编写MapReduce基础程序

[Hadoop in Action] 第4章编写MapReduce基础程序的更多相关文章