mapreduce多文件输出的两方法

package duogemap;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.*;

import org.apache.hadoop.mapred.lib.MultipleOutputs;

import org.apache.hadoop.util.GenericOptionsParser;

public class OldMulOutput {

public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, NullWritable, Text>{

private MultipleOutputs mos;

private OutputCollector<NullWritable, Text> collector;

public void Configured(JobConf conf){

mos=new MultipleOutputs(conf);

}

public void map(LongWritable key, Text value, OutputCollector<NullWritable, Text> output,Reporter reporter)

throws IOException{

String[] arr=value.toString().split(",", -1);

String chrono=arr[1]+","+arr[2];

String geo=arr[4]+","+arr[5];

collector=mos.getCollector("chrono", reporter);

collector.collect(NullWritable.get(),new Text(chrono));

collector=mos.getCollector("geo", reporter);

collector.collect(NullWritable.get(),new Text(geo));

}

public void close() throws IOException{

mos.close();

}

public static void main(String[] args) throws IOException {

Configuration conf=new Configuration();

String[] remainingArgs=new GenericOptionsParser(conf, args).getRemainingArgs();

if (remainingArgs.length !=2) {

System.err.println("Error!");

System.exit(1);

}

JobConf job=new JobConf(conf,OldMulOutput.class);

Path in=new Path(remainingArgs[0]);

Path out=new Path(remainingArgs[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setJobName("Multifile");

job.setMapperClass(MapClass.class);

job.setInputFormat(TextInputFormat.class);

job.setOutputKeyClass(NullWritable.class);

job.setOutputValueClass(Text.class);

job.setNumReduceTasks(0);

MultipleOutputs.addNamedOutput(job, "chrono", TextOutputFormat.class, NullWritable.class, Text.class);

MultipleOutputs.addNamedOutput(job, "geo", TextOutputFormat.class, NullWritable.class, Text.class);

JobClient.runJob(job);

}

package duogemap;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.util.GenericOptionsParser;

import duogemap.OldMulOutput.MapClass;

public class MulOutput {

public static class MapClass extends Mapper<LongWritable, Text, NullWritable, Text>{

private MultipleOutputs mos;

@Override

protected void setup(Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

super.setup(context);

mos=new MultipleOutputs(context);

}

@Override

protected void map(LongWritable key, Text value,Context context)

throws IOException, InterruptedException {

mos.write(NullWritable.get(),value,generateFileName(value));

}

private String generateFileName(Text value) {

// TODO Auto-generated method stub

String[] split=value.toString().split(",", -1);

String country=split[4].substring(1, 3);

return country+"/";

}

@Override

protected void cleanup(Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

super.cleanup(context);

mos.close();

}

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf=new Configuration();

Job job=Job.getInstance(conf, "Muloutput");

String[] remainingArgs=new GenericOptionsParser(conf, args).getRemainingArgs();

if (remainingArgs.length !=2) {

System.err.println("Error!");

System.exit(1);

}

Path in=new Path(remainingArgs[0]);

Path out=new Path(remainingArgs[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setMapperClass(MapClass.class);

job.setInputFormatClass(TextInputFormat.class);

job.setOutputKeyClass(NullWritable.class);

job.setOutputValueClass(Text.class);

job.setNumReduceTasks(0);

System.exit(job.waitForCompletion(true)?0:1);

}

mapreduce多文件输出的两方法的更多相关文章

学生成绩管理系统：统计成绩排序并打印（c++）（内含读取文件.txt及将文件输出excel的方法）
实验要求:输入30个学生的学号.姓名和5门课程的成绩,计算总分并按照总分排出名次,最后按照学号顺序打印成绩单, 并把成绩单输出为excel文件. txt数据: 2015020981 甲 90 89 9 ...
JAVA中比较两个文件夹不同的方法
JAVA中比较两个文件夹不同的方法,可以通过两步来完成,首先遍历获取到文件夹下的所有文件夹和文件,再通过文件路径和文件的MD5值来判断文件的异同.具体例子如下: public class TestFo ...
Python同时向控制台和文件输出日志logging的方法 Python logging模块详解
Python同时向控制台和文件输出日志logging的方法http://www.jb51.net/article/66756.htm 1 #-*- coding:utf-8 -*- 2 import ...
mysql合并两个count语句一次性输出结果的方法
mysql合并两个count语句一次性输出结果的方法需求场景:经常要查看有两个表统计数,用SELECT COUNT(*) FROM hotcontents,SELECT COUNT(*) FROM ...
两台Linux系统之间传输文件的几种方法
两台Linux系统之间传输文件的几种方法:参考https://www.cnblogs.com/bignode/articles/9241333.html
MR案例：多文件输出MultipleOutputs
问题描述:现有 ip-to-hosts.txt 数据文件,文件中每行数据有两个字段:分别是ip地址和该ip地址对应的国家,以'\t'分隔.要求汇总不同国家的IP数,并以国家名为文件名将其输出.解读:M ...
MapReduce JOB 的输出与输出笔记。
提高 MapReduce 价值,自定义输入和输出. 比如跳过存储到 HDFS 中这个耗时的布置. 而只是从原始数据源接受数据,或者直接将数据发送给某些处理程序. 这些处理程序在 MapReduce 作 ...
java分享第十六天（ java读取properties文件的几种方法&java配置文件持久化：static块的作用）
java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...
使用log4j配置不同文件输出不同内容
敲代码中很不注意写日志,虽然明白很重要.今天碰到记录日志,需要根据内容分别输出到不同的文件. 参考几篇文章: 感觉最详细:http://blog.csdn.net/azheng270/article/ ...

随机推荐

移动端之Android开发的几种方式的初步体验
目前越来越多的移动端混合开发方式,下面列举的大多数我都略微的尝试过,就初步的认识写个简单的心得: 开发方式开发环境是否需要AndroidSDK 支持跨平台开发语言&技能 MUI Win+ ...
笔记：Binder通信机制
TODO: 待修正 Binder简介 Binder是android系统中实现的一种高效的IPC机制,平常接触到的各种XxxManager,以及绑定Service时都在使用它进行跨进程操作. 它的实现基 ...
富文本编辑器Simditor的简易使用
最近打算自己做一个博客系统,并不打算使用帝国cms或者wordpress之类的做后台管理!自己处于学习阶段也就想把从前台到后台一起谢了.好了,废话不多说了,先来看看富文本编辑器SimDitor,这里是 ...
nginx+php的使用
原文来自:windows下配置nginx+php环境按照他的步骤走,亲测可用! 但是这里他后面说的根目录可能有些人有点懵. 其实在设置的时候就设置了: 网站根目录就是www这个目录,如果没创建请自行 ...
[APUE]文件和目录(上)
一.文件权限 1. 各种ID 我在读这一章时遇到了各种ID,根据名字完全不清楚什么意思,幸好看到了这篇文章,http://blog.csdn.net/ccjjnn19890720/article/de ...
【uwp】浅谈China Daily 中划词翻译的实现
学习uwp开发也有一段时间了,最近上架了一个小应用(China Daily),现在准备将开发中所学到的一些东西拿出来跟大家分享交流一下. 先给出应用的下载链接:China Daily , 感兴趣的童鞋 ...
MongoDB学习笔记三—增删改文档上
插入insert 单条插入 > db.foo.insert({"bar":"baz"}) WriteResult({ }) 批量插入 > db.fo ...
Linux实战教学笔记08:Linux 文件的属性（上半部分）
第八节 Linux 文件的属性(上半部分) 标签(空格分隔):Linux实战教学笔记第1章 Linux中的文件 1.1 文件属性概述(ls -lhi) linux里一切皆文件 Linux系统中的文件 ...
Python学习实践------正向最大匹配中文分词
正向最大匹配分词: 1.加载词典文件到集合中,取词典文件中最大长度词的length 2.每次先在句子中按最大长度分割,然后判断分割的词是否存在字典中,存在则记录此词,调整起始点. 3.不存在则按最大长 ...
[转]NopCommerce How to add a menu item into the administration area from a plugin
本文转自:http://docs.nopcommerce.com/display/nc/How+to+code+my+own+shipping+rate+computation+method Go t ...

mapreduce多文件输出的两方法

mapreduce多文件输出的两方法的更多相关文章

随机推荐

热门专题