hadoop多文件输出

现实环境中，经常遇到一个问题就是想使用多个Reduce，可是迫于setup和cleanup在每个Reduce中会调用一次，仅仅能设置一个Reduce，无法是实现负载均衡。

问题，假设要在reduce中输出两种文件，一种是标志，还有一种是正常业务数据，实现方案有三种：

（1）设置一个reduce，在reduce中将数据封装到一个集合中，在cleanup中将数据写入到hdfs中，可是假设数据量巨大，一个reduce无法充分利用资源，实现负载均衡。可是假设数据量较小，能够使用

（2）设置多文件输出，使用MultipleOutputs类

详细见代码：

private MultipleOutputs mos; 

@Override

protected void setup(Context context)

throws IOException, InterruptedException {

  mos=new MultipleOutputs(context);

}

@Override

protected void reduce(Text key, Iterable<Text> values, Context context)

throws IOException, InterruptedException { 

String key1=key.toString();

for(Text t:values){

   if(key1.equals("a")){

   mos.write("a", key,t);

   } else if(key1.equals("b")){

   mos.write("b", key,t);

   } else if(key1.equals("c")){

   mos.write("c", key,t); 

   }

 }

}

@Override

protected void cleanup(

Context context)

throws IOException, InterruptedException {

mos.close();

}

main方法中配置

<pre name="code" class="java">MultipleOutputs.addNamedOutput(job, "a", TextOutputFormat.class, Text.class, Text.class);

MultipleOutputs.addNamedOutput(job, "b", TextOutputFormat.class, Text.class, Text.class);

MultipleOutputs.addNamedOutput(job, "c", TextOutputFormat.class, Text.class, Text.class);

结果文件为  a-r-0000,b-r-0000,c-r-0000,part-r-0000

（3）第三种方案是自己实现多文件输出

详见http://blog.csdn.net/qingmu0803/article/details/39665407

hadoop多文件输出的更多相关文章

hadoop多文件输出MultipleOutputFormat和MultipleOutputs
1.MultipleOutputFormat可以将相似的记录输出到相同的数据集.在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方 ...
Hadoop 实现多文件输出
比如word.txt内容如下: aaa bbb aba abc bba bbd bbbc cc ccd cce 要求按单词的首字母区分单词并分文件输出代码如下: LineRecordWriter p ...
mapreduce多文件输出的两方法
mapreduce多文件输出的两方法 package duogemap; import java.io.IOException; import org.apache.hadoop.conf ...
hadoop streaming 多路输出 [转载]
转载 http://www.cnblogs.com/shapherd/archive/2012/12/21/2827860.html hadoop 支持reduce多路输出的功能,一个reduce可以 ...
Hadoop基于文件的数据结构及实例
基于文件的数据结构两种文件格式: 1.SequenceFile 2.MapFile SequenceFile 1.SequenceFile文件是Hadoop用来存储二进制形式的<key,val ...
MR案例：多文件输出MultipleOutputs
问题描述:现有 ip-to-hosts.txt 数据文件,文件中每行数据有两个字段:分别是ip地址和该ip地址对应的国家,以'\t'分隔.要求汇总不同国家的IP数,并以国家名为文件名将其输出.解读:M ...
使用log4j配置不同文件输出不同内容
敲代码中很不注意写日志,虽然明白很重要.今天碰到记录日志,需要根据内容分别输出到不同的文件. 参考几篇文章: 感觉最详细:http://blog.csdn.net/azheng270/article/ ...
详解log4j2(下) - Async/MongoDB/Flume Appender 按日志级别区分文件输出
1. 按日志级别区分文件输出有些人习惯按日志信息级别输出到不同名称的文件中,如info.log,error.log,warn.log等,在log4j2中可通过配置Filters来实现. 假定需求是把 ...
Hadoop HDFS文件常用操作及注意事项
Hadoop HDFS文件常用操作及注意事项 1.Copy a file from the local file system to HDFS The srcFile variable needs t ...

随机推荐

Codeforces Round #311 (Div. 2) E - Ann and Half-Palindrome（字典树+dp）
E. Ann and Half-Palindrome time limit per test 1.5 seconds memory limit per test 512 megabytes input ...
Hacker（19）----检测Windows系统漏洞
想完全掌握Windows中存在的漏洞需要使用专业的漏洞扫描软件.目前常用的有MBSA(MircosoftBaselineSecurityAnalyzer).360安全卫士等. 一.使用MBSA检测系统 ...
android调试系列--使用ida pro调试so
1.工具介绍 IDA pro: 反汇编神器,可静态分析和动态调试. 模拟机或者真机:运行要调试的程序. 样本:阿里安全挑战赛第二题:http://pan.baidu.com/s/1eS9EXIM 2. ...
jquery之onblur事件
onblur事件与html结合 function discountCheck(){ //var checkVal=$('input:text[name="Fee1"]').val( ...
Javascript进阶篇——(DOM—getAttribute()、setAttribute()方法)—笔记整理
getAttribute()方法通过元素节点的属性名称获取属性的值.语法: elementNode.getAttribute(name) 1. elementNode:使用getElementById ...
Linq to Entities不识别方法
db.UserValidates.Include(a => a.User).Where(uv => u.UserValidates.Contains(uv, c)).ToList(); 执 ...
linux删除ORACLE【weber出品必属精品】
关闭数据库 sqlplus / as sysdba shutdown abort 清除oracle软件 su - oracle cd $ORACLE_BASE rm -rf * rm -rf /etc ...
Win7 32位系统下Java开发环境的安装及配置
目录: Java JDK安装. Java JDK系统环境的配置. 配置常见问题的解决. Java JDK的安装 Java Jdk(Java Development Kit)Java开发不可缺少的环境, ...
CF 8D Two Friends 【二分+三分】
三个地点构成一个三角形. 判断一下两个人能否一起到shop然后回家,如果不能: 两个人一定在三角形内部某一点分开,假设沿着直线走,可以将问题简化. 三分从电影院出来时候的角度,在对应的直线上二分出一个 ...
移动web前端的一些硬技能（一）关于移动设备
移动端web其实也就是小尺寸触摸屏设备的web,其中包含了两个词——1.小尺寸设备:2.触摸屏.能把这两个问题给解决掉,就已经是一个基本合格的移动web前端开发工程师了.对于前端工程师来说,前路漫漫, ...

hadoop多文件输出

hadoop多文件输出的更多相关文章

随机推荐

热门专题