使用hadoop multipleOutputs对输出结果进行不一样的组织

MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。以前常用的方法是在MR job运行过后，用脚本对目录下的数据进行一次重新组织，变成我们需要的格式。研究了一下MR框架中的MultipleOutputs（是2.0之后的新API，是对老版本中MultipleOutputs与MultipleOutputFormat的一个整合）。

1. 需求，下面是有些测试数据，要对这些数据按类目输出到output中：

1512,iphone5s,4英寸,指纹识别,A7处理器,64位,M7协处理器,低功耗

1512,iphone5,4英寸,A6处理器,IOS7

1512,iphone4s,3.5英寸,A5处理器,双核,经典

50019780,ipad,9.7英寸,retina屏幕,丰富的应用

50019780,yoga,联想,待机18小时,外形独特

50019780,nexus 7,华硕&google,7英寸

50019780,ipad mini 2,retina显示屏,苹果,7.9英寸

1101,macbook air,苹果超薄,OS X mavericks

1101,macbook pro,苹果,OS X lion

1101,thinkpad yoga,联想,windows 8,超级本

2. API简介：

MutipleOutput是调用自己的writer方法来实现输出路径的定制的。首先来看看writer方法的几种重载方式：

（1）. write(String namedOutput,Text key,IntWritable value) throws IOException,InterruptedException

讲key，value写入到以namedOutput开头的文件中，格式如：{namedOutput}-(m|r)-{part-number}

（2）.write(Text key,IntWritable value,String baseOutputPath) throws IOException,InterruptedException

将key，value写入到baseOutputPath所指定的目录下，在目录下系统会自动为文件生成unique的文件名字；

（3）.write(String namedOutput,Text key,Object value,String baseOutputPath) throws IOException,InterruptedException

应用在第1种和第2种需要共用的场景；

3. 下面来看一下代码，为了演示的简便只写了mapper函数，reducer同理：

需要引入：import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

在setup函数中

实例化MultipleOutputs对象mlo：mlo = new MultipleOutputs<Text,Text>(context);

在map()函数中，根据逗号对输入数据进行分割，然后直接调用mlo进行输出；采用了两种形式进行输出。

要注意的是hadoop是不承认未经注册namedOutput的，必须先在主函数中注册，然后才能写入，否则运行时会报not defined错误；所以要在主函数中用MultipleOutputs.addNamedOutput将对应的namedOutput文件注册一下，告诉hadoop可以写入：MultipleOutputs.addNamedOutput(job,"MOSText",TextOutputFormat.class,Text.class,Text.class);

4. 运行这个数据后可以看到最终的数据结构目录如下：

（1）其中/*/*/mlo/1101（隐私原因将具体名称隐去）、/*/*/mlo/1512、/*/*/mlo/50019780是对应：mlo.write(new Text(tokens[0]),new Text(line),outputPath + "/" + tokens[0]+ "/" ) 的按类目输出；

用hadoop fs -ls /*/*/mlo/1101看一下类目文件夹下面的结构如下：

Hadoop框架会自动文件夹下的输出指定unique name；

用hadoop fs -cat /*/*/mlo/1101/-m-00000查看如下：

（2）其中/*/*/mlo/MOSText-m-00000是对应：mlo.write("MOSText", new Text(tokens[0]),line)的输出，

用hadoop fs -cat /*/*/mlo/MOSText-m-00000查看如下：

包含我们所有的输入数据

（3）另一个/*/*/mlo/part-m-00000文件应该是hadoop自己生成的，由于我们没有使用context进行写入操作，这个文件是空的。

使用hadoop multipleOutputs对输出结果进行不一样的组织的更多相关文章

Hadoop MultipleOutputs 结果输出到多个文件夹出现数据不全，部分文件为空
如题:出现下图中的情况(设置reduceNum=5) 感觉很奇怪,排除了很久,终于发现是一个第二次犯的错误:丢了这句 this.mOutputs.close(); 加上这句,一切恢复正常!
hadoop多文件输出MultipleOutputFormat和MultipleOutputs
1.MultipleOutputFormat可以将相似的记录输出到相同的数据集.在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方 ...
hadoop streaming 多路输出 [转载]
转载 http://www.cnblogs.com/shapherd/archive/2012/12/21/2827860.html hadoop 支持reduce多路输出的功能,一个reduce可以 ...
hadoop多文件输出
现实环境中,经常遇到一个问题就是想使用多个Reduce,可是迫于setup和cleanup在每个Reduce中会调用一次,仅仅能设置一个Reduce,无法是实现负载均衡. 问题,假设要在reduce中 ...
hadoop之 mr输出到hbase
1.注意问题: 1.在开发过程中一定要导入hbase源码中的lib库否则出现如下错误 TableMapReducUtil 找不到什么-- 2.编码: import java.io.IOExceptio ...
hadoop通过java输出HAFS上的文件内容
package org.apache.hadoop.book;import java.io.InputStream;import java.net.URL;import org.apache.hado ...
9.2.1 hadoop mapreduce任务输出的默认排序
任务的默认排序 MapTask和ReduceTask都会默认对数据按照key进行排序,不管逻辑上是否需要.默认是按照字典顺序排序,且实现该排序的方法是快速排序.但是map和reduce任务只能保证单个 ...
hadoop multipleoutputs
http://grepalex.com/2013/05/20/multipleoutputs-part1/ http://grepalex.com/2013/07/16/multipleoutputs ...
hadoop1.2.1 MultipleOutputs将结果输出到多个文件或文件夹
hadoop1.2.1 MultipleOutputs将结果输出到多个文件或文件夹博客分类:http://tydldd.iteye.com/blog/2053867 hadoop hadoop1 ...

随机推荐

抓包工具Fidder设置（移动端抓包）
1.下载安装fiddler,下载链接:http://fiddler2.com/get-fiddler(我用的是免安装的fiddler2) 2.设置fiddler 打开Fiddler, Tool ...
复杂TableView在iOS上的性能优化
声明:本文翻译自<iOS performance optimization>,原文作者 Khang Vo.翻译本文纯属为了技术交流的目的,并不具有任何的商业性质,也不得利用本文内容进行商业 ...
可持久化Trie & 可持久化平衡树专题练习
[xsy1629]可持久化序列 - 可持久化平衡树 http://www.cnblogs.com/Sdchr/p/6258827.html [bzoj4260]REBXOR - Trie 事实上只是一 ...
日期操作类--DateFormat类
简单的DateFormat格式化编码时间模式字符串用来指定时间格式.在此模式中,所有的ASCII字母被保留为模式字母,定义如下: 字母描述示例 G 纪元标记 AD y 四位年份 2001 M 月 ...
uploader上传
综述 Uploader是非常强大的异步文件上传组件,支持ajax.iframe.flash三套方案,实现浏览器的全兼容,调用非常简单,内置多套主题支持和常用插件,比如验证.图片预览.进度条等. 广泛应 ...
找不到 -lz解决方法
sudo apt-get install libghc-zlib-dev
SQL SERVER数据库索引、外键查找
1.索引查找 select a.name as tabname ,h.name as idname,h.type_descfrom sys.objects as a right join sys.in ...
Spring Web Flow 简介
Spring Web Flow 简介博客分类: 转载 SSH 最近在TSS上看到了一片介绍Spring Web Flow的文章,顺便就翻译了下来,SWF的正式版估计要到6月份才能看到了,目前的例子都 ...
lock关键字理解
>可以把lock关键字可以看成 try{ Monitor.Enter(x); //.. } finally{ Monitor.Exit(x); } 这样子的结构,当然使用lock关键字更方便 & ...
RewriteRule参数
RewriteCond指令格式 [说明]定义重写发生的条件 [语法]RewriteCond TestString CondPattern [flags] RewriteCond指令定义一条规则条件.在 ...

使用hadoop multipleOutputs对输出结果进行不一样的组织

使用hadoop multipleOutputs对输出结果进行不一样的组织的更多相关文章

随机推荐

热门专题