MapReduce 规划六系列 MultipleOutputs采用

在前面的示例，输出文件名是默认：

_logs         part-r-00001  part-r-00003  part-r-00005  part-r-00007  part-r-00009  part-r-00011  part-r-00013  _SUCCESS

part-r-00000  part-r-00002  part-r-00004  part-r-00006  part-r-00008  part-r-00010  part-r-00012  part-r-00014

part-r-0000N

另一个_SUCCESS文件标志job执行成功。

另一个文件夹_logs。

可是实际情况中，我们有时候须要依据情况定制我的输出文件名称。

比方我要依据did的值分组，产生不同的输出文件。全部did出现次数在[0, 2)的都输出到a文件里。在[2, 4)的输出大b文件。其它输出到c文件。

这里涉及到的输出类是MultipleOutputs类。

以下是介绍怎样实现。

首先有一个小优化，为了避免每次执行时输入一长串命令，利用maven exec plugin，參考pom.xml配置例如以下：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

  <modelVersion>4.0.0</modelVersion>

  <groupId>org.freebird</groupId>

  <artifactId>mr1_example2</artifactId>

  <packaging>jar</packaging>

  <version>1.0-SNAPSHOT</version>

  <name>mr1_example2</name>

  <url>http://maven.apache.org</url>

  <dependencies>

    <dependency>

      <groupId>org.apache.hadoop</groupId>

      <artifactId>hadoop-core</artifactId>

      <version>1.2.1</version>

    </dependency>

  </dependencies>

  <build>

    <plugins>

      <plugin>

        <groupId>org.codehaus.mojo</groupId>

        <artifactId>exec-maven-plugin</artifactId>

        <version>1.3.2</version>

        <executions>

          <execution>

            <goals>

              <goal>exec</goal>

            </goals>

          </execution>

        </executions>

        <configuration>

          <executable>hadoop</executable>

          <arguments>

            <argument>jar</argument>

            <argument>target/mr1_example2-1.0-SNAPSHOT.jar</argument>

            <argument>org.freebird.LogJob</argument>

            <argument>/user/chenshu/share/logs</argument>

            <argument>/user/chenshu/share/output12</argument>

          </arguments>

        </configuration>

      </plugin>

    </plugins>

  </build>

</project>

这样每次mvn clean package之后，执行mvn exec:exec命令就可以。

然后在LogJob.java文件加入几行代码：

package org.freebird;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.freebird.reducer.LogReducer;

import org.freebird.mapper.LogMapper;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogJob {                                                                                                                                                                                                

    public static void main(String[] args) throws Exception {

        System.out.println("args[0]:" + args[0]);

        System.out.println("args[1]:" + args[1]);                                                                                                                                                                    

        Configuration conf = new Configuration();

        Job job = new Job(conf, "sum_did_from_log_file");

        job.setJarByClass(LogJob.class);                                                                                                                                                                             

        job.setMapperClass(org.freebird.mapper.LogMapper.class);

        job.setReducerClass(org.freebird.reducer.LogReducer.class);                                                                                                                                                  

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);                                                                                                                                                                  

        MultipleOutputs.addNamedOutput(job, "a", TextOutputFormat.class, Text.class, IntWritable.class);

        MultipleOutputs.addNamedOutput(job, "b", TextOutputFormat.class, Text.class, Text.class);

        MultipleOutputs.addNamedOutput(job, "c", TextOutputFormat.class, Text.class, Text.class);                                                                                                                    

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));                                                                                                                                                      

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

MultipleOutputs.addNamedOutput 函数被调用了三次，设置了文件名称为a，b和c。最后两个參数各自是output key和output value类型。应该和job.setOutputKeyClass以及job.setOutputValueClass保持一致。

最后改动reducer类的代码：

public class LogReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    private MultipleOutputs outputs;

    @Override

    public void setup(Context context) throws IOException, InterruptedException {

        System.out.println("enter LogReducer:::setup method");

        outputs = new MultipleOutputs(context);

    }

    @Override

    public void cleanup(Context context) throws IOException, InterruptedException {

        System.out.println("enter LogReducer:::cleanup method");

        outputs.close();

    }

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context) throws IOException, InterruptedException {

        System.out.println("enter LogReducer::reduce method");

        int sum = 0;

        for (IntWritable val : values) {

            sum += val.get();

        }

        result.set(sum);

        System.out.println("key: " + key.toString() + " sum: " + sum);

        if ((sum < 2) && (sum >= 0)) {

            outputs.write("a", key, sum);

        } else if (sum < 4) {

            outputs.write("b", key, sum);

        } else {

            outputs.write("c", key, sum);

        }

    }

}

依据同样key(did)sum的结果大小，写入到不同的文件里。执行后观察一下结果：

[chenshu@hadoopMaster output12]$ ls

a-r-00000  a-r-00004  a-r-00008  a-r-00012  b-r-00001  b-r-00005  b-r-00009  b-r-00013  c-r-00002  c-r-00006  c-r-00010  c-r-00014     part-r-00002  part-r-00006  part-r-00010  part-r-00014

a-r-00001  a-r-00005  a-r-00009  a-r-00013  b-r-00002  b-r-00006  b-r-00010  b-r-00014  c-r-00003  c-r-00007  c-r-00011  _logs         part-r-00003  part-r-00007  part-r-00011  _SUCCESS

a-r-00002  a-r-00006  a-r-00010  a-r-00014  b-r-00003  b-r-00007  b-r-00011  c-r-00000  c-r-00004  c-r-00008  c-r-00012  part-r-00000  part-r-00004  part-r-00008  part-r-00012

a-r-00003  a-r-00007  a-r-00011  b-r-00000  b-r-00004  b-r-00008  b-r-00012  c-r-00001  c-r-00005  c-r-00009  c-r-00013  part-r-00001  part-r-00005  part-r-00009  part-r-00013

打开随意的a，b和c开头的文件，查看值果然是如此

5371700bc7b2231db03afeb0        6

5371700cc7b2231db03afec0        7

5371701cc7b2231db03aff8d        6

5371709dc7b2231db03b0136        6

537170a0c7b2231db03b01ac        6

537170a6c7b2231db03b01fc        6

537170a8c7b2231db03b0217        6

537170b3c7b2231db03b0268        6

53719aa9c7b2231db03b0721        6

53719ad0c7b2231db03b0731        4

使用MultipleOutputs依据sum值对设备ID进行分组成功了。

MapReduce仍然会默认生使part....档，不要紧，它们是空文件。

MapReduce 规划六系列 MultipleOutputs采用的更多相关文章

数据在内存中的存储方式( Big Endian和Little Endian的区别 )（x86系列则采用little endian方式存储数据）
https://www.cnblogs.com/renyuan/archive/2013/05/26/3099766.html 1．故事的起源 “endian”这个词出自<格列佛游记>.小 ...
MapReduce 规划系列十采用HashPartitioner调整Reducer计算负荷
example4它演示了如何指定Reducer号码,本节演示如何使用HashPartitioner将Mapper根据该输出key分组后Reducer为了应对. 合理的分组策略会尽一切Reducer不能 ...
MapReduce 规划系列的12 使用Hadoop Streaming技术集成newLISP文字
本文example6环境与前Hadoop 1.x异,于Hadoop 2.x环境测试. 功能与前面相同的日志处理程序. 第一newLISP文字,游玩mapper任务.于stdin读取文本数据,将did由 ...
Spring源深和六系列 CreateBean过程
blog宗旨:用图说话. 这一章的图讲述了createBean的过程.到这里spring容器就能够完毕IOC的整个过程,拿到我们须要的对象. 下一章我们接着来看一看AOP完毕的过程. 附:文件夹 Sp ...
MapReduce任务学习系列
首先放一张官方图片,大致了解下整个MapReduce的处理过程. 抛出如下疑问: 1.MapReduce的基本原理是什么?即利用什么机制来实现的任务拆分处理? 2.MapReduce任务执行过程是什么 ...
规划设计系列3 | SketchUp+实景三维，方案现状一起看
将SketchUp中建立的模型与实景三维模型进行集成,既可以充分发挥实景三维在地理空间记录方面的优势,又可以去除SketchUp在周边环境设计上的不足. 同时借助Wish3D Earth丰富的场景浏览 ...
MapReduce(十六): 写数据到HDFS的源代码分析
1) LineRecordWriter负责把Key,Value的形式把数据写入到DFSOutputStream watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZ ...
【Hadoop】mapreduce采用多进程与spark采用多线程比较
转自:Mapreduce多进程与spark多线程 Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括 ...
IT软件人员的技术学习内容（写给技术迷茫中的你） - 项目管理系列文章
前面笔者曾经写过一篇关于IT从业者的职业道路文章(见笔者文:IT从业者的职业道路(从程序员到部门经理) - 项目管理系列文章).然后有读者提建议说写写技术方面的路线,所以就有了本文.本文从初学者到思想 ...

随机推荐

hdu2159（二维完全背包）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2159 题意:打怪,还有最后一级,忍耐度有限m,问在杀怪数量上限为s的情况下能否获取n经验而通关,且忍耐 ...
Mysql怎样删除以“#sql-”开头的暂时表
author:skate time:2014/09/28 Mysql怎样删除以"#sql-"开头的暂时表现象:在重建索引后,发现Mysqlserver的磁盘空间快满了在用例如以 ...
采用 audio 和 embed 实现浏览器的兼容性页音频播放
采用 audio 和 embed 实现浏览器的兼容性页音频播放采用 audio 和 embed 实现浏览器的兼容性页音频播放学习参考源代码如下所示: function playSound() { ...
用xml建立仓库的逻辑层的操作
package com.repositoryclient.xml; import java.io.FileNotFoundException; import java.io.FileOutputStr ...
【翻译自mos文章】11gR2中的asm后台进程
11gR2中的asm后台进程參考原文: ASM Background Processes in 11.2 (Doc ID 1641678.1) 适用于: Oracle Database - Ente ...
（适合入门）JVM堆内存相关的启动参数：年轻一代、岁和永久代内存分配
假设你要观察JVM进程消耗的堆内存,通过命令工具jmap或可视化工具jvisualvm.exe.JVM这些参数的默认启动值.假设你想知道JVM内存分配策略,最开始手动设置这些参数.通过JDK统计结果, ...
tomcat启动Flash退出错误不能被视为解决该错误信息
tomcat 当有错误启动startup.bat闪存在退出解决方案打开 startup.bat 文件最后该start 阅读run watermark/2/text/aHR0cDovL2Jsb2 ...
URAL 1728. Curse on Team.GOV（STL set）
题目链接:space=1&num=1728" target="_blank">http://acm.timus.ru/problem.aspx?space= ...
UVa 11463 - Commandos
主题:有一个敢死队,要销毁的建筑群,他们从一个特定建筑物离开,最后到一组特定的建筑物的. 现在,各个建筑物之间进行连接的路由,班车需要在建筑物1时间单位,我问的第一次集合. 分析:图论,最短路径.直接 ...
[2014 Regional]牡丹江 H Hierarchical Notation 做题记录
主妇:老年人谁是炮灰牡丹江,我们的团队只是做同步大赛他决定开爆震H什么时候,A 5min 1Y.I在该限制后,纠结了很久30min+ 1Y,神继续承担各种位置卡D在,hpp见B我认为这是非常熟悉的研 ...

MapReduce 规划 六系列 MultipleOutputs采用

MapReduce 规划 六系列 MultipleOutputs采用的更多相关文章

随机推荐

热门专题

MapReduce 规划六系列 MultipleOutputs采用

MapReduce 规划六系列 MultipleOutputs采用的更多相关文章