mapreduce多文件输出的两方法

package duogemap;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.*;

import org.apache.hadoop.mapred.lib.MultipleOutputs;

import org.apache.hadoop.util.GenericOptionsParser;

public class OldMulOutput {

public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, NullWritable, Text>{

private MultipleOutputs mos;

private OutputCollector<NullWritable, Text> collector;

public void Configured(JobConf conf){

mos=new MultipleOutputs(conf);

}

public void map(LongWritable key, Text value, OutputCollector<NullWritable, Text> output,Reporter reporter)

throws IOException{

String[] arr=value.toString().split(",", -1);

String chrono=arr[1]+","+arr[2];

String geo=arr[4]+","+arr[5];

collector=mos.getCollector("chrono", reporter);

collector.collect(NullWritable.get(),new Text(chrono));

collector=mos.getCollector("geo", reporter);

collector.collect(NullWritable.get(),new Text(geo));

}

public void close() throws IOException{

mos.close();

}

public static void main(String[] args) throws IOException {

Configuration conf=new Configuration();

String[] remainingArgs=new GenericOptionsParser(conf, args).getRemainingArgs();

if (remainingArgs.length !=2) {

System.err.println("Error!");

System.exit(1);

}

JobConf job=new JobConf(conf,OldMulOutput.class);

Path in=new Path(remainingArgs[0]);

Path out=new Path(remainingArgs[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setJobName("Multifile");

job.setMapperClass(MapClass.class);

job.setInputFormat(TextInputFormat.class);

job.setOutputKeyClass(NullWritable.class);

job.setOutputValueClass(Text.class);

job.setNumReduceTasks(0);

MultipleOutputs.addNamedOutput(job, "chrono", TextOutputFormat.class, NullWritable.class, Text.class);

MultipleOutputs.addNamedOutput(job, "geo", TextOutputFormat.class, NullWritable.class, Text.class);

JobClient.runJob(job);

}

package duogemap;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.util.GenericOptionsParser;

import duogemap.OldMulOutput.MapClass;

public class MulOutput {

public static class MapClass extends Mapper<LongWritable, Text, NullWritable, Text>{

private MultipleOutputs mos;

@Override

protected void setup(Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

super.setup(context);

mos=new MultipleOutputs(context);

}

@Override

protected void map(LongWritable key, Text value,Context context)

throws IOException, InterruptedException {

mos.write(NullWritable.get(),value,generateFileName(value));

}

private String generateFileName(Text value) {

// TODO Auto-generated method stub

String[] split=value.toString().split(",", -1);

String country=split[4].substring(1, 3);

return country+"/";

}

@Override

protected void cleanup(Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

super.cleanup(context);

mos.close();

}

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

Configuration conf=new Configuration();

Job job=Job.getInstance(conf, "Muloutput");

String[] remainingArgs=new GenericOptionsParser(conf, args).getRemainingArgs();

if (remainingArgs.length !=2) {

System.err.println("Error!");

System.exit(1);

}

Path in=new Path(remainingArgs[0]);

Path out=new Path(remainingArgs[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setMapperClass(MapClass.class);

job.setInputFormatClass(TextInputFormat.class);

job.setOutputKeyClass(NullWritable.class);

job.setOutputValueClass(Text.class);

job.setNumReduceTasks(0);

System.exit(job.waitForCompletion(true)?0:1);

}

mapreduce多文件输出的两方法的更多相关文章

学生成绩管理系统：统计成绩排序并打印（c++）（内含读取文件.txt及将文件输出excel的方法）
实验要求:输入30个学生的学号.姓名和5门课程的成绩,计算总分并按照总分排出名次,最后按照学号顺序打印成绩单, 并把成绩单输出为excel文件. txt数据: 2015020981 甲 90 89 9 ...
JAVA中比较两个文件夹不同的方法
JAVA中比较两个文件夹不同的方法,可以通过两步来完成,首先遍历获取到文件夹下的所有文件夹和文件,再通过文件路径和文件的MD5值来判断文件的异同.具体例子如下: public class TestFo ...
Python同时向控制台和文件输出日志logging的方法 Python logging模块详解
Python同时向控制台和文件输出日志logging的方法http://www.jb51.net/article/66756.htm 1 #-*- coding:utf-8 -*- 2 import ...
mysql合并两个count语句一次性输出结果的方法
mysql合并两个count语句一次性输出结果的方法需求场景:经常要查看有两个表统计数,用SELECT COUNT(*) FROM hotcontents,SELECT COUNT(*) FROM ...
两台Linux系统之间传输文件的几种方法
两台Linux系统之间传输文件的几种方法:参考https://www.cnblogs.com/bignode/articles/9241333.html
MR案例：多文件输出MultipleOutputs
问题描述:现有 ip-to-hosts.txt 数据文件,文件中每行数据有两个字段:分别是ip地址和该ip地址对应的国家,以'\t'分隔.要求汇总不同国家的IP数,并以国家名为文件名将其输出.解读:M ...
MapReduce JOB 的输出与输出笔记。
提高 MapReduce 价值,自定义输入和输出. 比如跳过存储到 HDFS 中这个耗时的布置. 而只是从原始数据源接受数据,或者直接将数据发送给某些处理程序. 这些处理程序在 MapReduce 作 ...
java分享第十六天（ java读取properties文件的几种方法&java配置文件持久化：static块的作用）
java读取properties文件的几种方法一.项目中经常会需要读取配置文件(properties文件),因此读取方法总结如下: 1.通过java.util.Properties读取Propert ...
使用log4j配置不同文件输出不同内容
敲代码中很不注意写日志,虽然明白很重要.今天碰到记录日志,需要根据内容分别输出到不同的文件. 参考几篇文章: 感觉最详细:http://blog.csdn.net/azheng270/article/ ...

随机推荐

expect用法
1. ［#!/usr/bin/expect］这一行告诉操作系统脚本里的代码使用那一个shell来执行.这里的expect其实和linux下的bash.windows下的cmd是一类东西. 注意: ...
.NET Core系列： 1、.NET Core 环境搭建和命令行CLI入门
2016年6月27日.NET Core & ASP.NET Core 1.0在Redhat峰会上正式发布,社区里涌现了很多文章,我也计划写个系列文章,原因是.NET Core的入门门槛相当高, ...
Web性能优化：What? Why? How?
为什么要提升web性能? Web性能黄金准则:只有10%~20%的最终用户响应时间花在了下载html文档上,其余的80%~90%时间花在了下载页面组件上. web性能对于用户体验有及其重要的影响,根据 ...
关于 devbridge-autocomplete 插件多选操作的实现方法
目前据我所知最好用的 autocomplete 插件就是 jquery-ui 的 autocomplete 以及 devbridge 的 autocomplete 插件. 我最终选择了 devbrid ...
[C#] C# 知识回顾 - 异常介绍
异常介绍我们平时在写程序时,无意中(或技术不够),而导致程序运行时出现意外(或异常),对于这个问题, C# 有专门的异常处理程序. 异常处理所涉及到的关键字有 try.catch 和 finally ...
C#中如何调整图像大小
在本篇文章中,我将介绍如何在C#中来调整你想要的图像大小.要实现这一目标,我们可以采取以下几个步骤: 1.首先要获取你想要调整大小的图像: string path = Server.MapPath(& ...
IOS FMDB 获取数据库表和表中的数据
ios开发中,经常会用到数据库sqlite的知识,除了增,删,改,查之外,我们说说如何获取数据库中有多少表和表相关的内容. 前言跟数据库使用相关的一般的增删改查的语句,这里就不做解释了.在网上有很多 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
漫谈C#编程语言在游戏领域的应用
0x00 前言随着微软越来越开放,C#也变得越来越吸引人们的眼球.而在游戏行业中,C#也开始慢慢地获得了关注.这不, 网易绝代双娇手游团队已经全面使用.Net Core支持前后端统一C#开发,跨平台 ...
ADO.NET编程之美----数据访问方式(面向连接与面向无连接)
最近,在学习ADO.NET时,其中提到了数据访问方式:面向连接与面向无连接.于是,百度了一下,发现并没有很好的资料,然而,在学校图书馆中发现一本好书(<ASP.NET MVC5 网站开发之美&g ...

mapreduce多文件输出的两方法

mapreduce多文件输出的两方法的更多相关文章

随机推荐

热门专题