MR中简单实现自定义的输入输出格式

import java.io.DataOutput;

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.JobContext;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.RecordWriter;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Reducer.Context;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileRecordReader;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.ReflectionUtils;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class TestCombine extends Configured implements Tool {

	private static class ProvinceMapper extends

			Mapper<Object, Text, Text, Text> {

		@Override

		protected void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			System.out.println("value : " + value + " Context " + context);

			context.write(value, value);

		}

	}

	private static class ProvinceReducer extends

			Reducer<Text, Text, Text, Text> {

		@Override

		protected void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			for (Text va : values) {

			    System.out.println("reduce " + key);

				context.write(key, key);

			}

		}

	}

	 // 输入格式

     static class CombineSequenceFileInputFormat<K, V> extends CombineFileInputFormat<K, V> {

	    @SuppressWarnings({ "unchecked", "rawtypes" })

	    @Override

	    public RecordReader<K, V> createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException {

	        return new CombineFileRecordReader((CombineFileSplit)split, context, CombineLineRecordReader.class);

	    }

	}  

	 static class CombineLineRecordReader<K, V> extends RecordReader<K, V> {

	    private CombineFileSplit split;

	    private TaskAttemptContext context;

	    private int index;

	    private RecordReader<K, V> rr;  

	    @SuppressWarnings("unchecked")

	    public CombineLineRecordReader(CombineFileSplit split, TaskAttemptContext context, Integer index) throws IOException, InterruptedException {

	        this.index = index;

	        this.split = (CombineFileSplit) split;

	        this.context = context;  

	        this.rr = (RecordReader<K, V>) ReflectionUtils.newInstance(LineRecordReader.class, context.getConfiguration());

	    }  

	    @SuppressWarnings("unchecked")

	    @Override

	    public void initialize(InputSplit curSplit, TaskAttemptContext curContext) throws IOException, InterruptedException {

	        this.split = (CombineFileSplit) curSplit;

	        this.context = curContext;  

	        if (null == rr) {

	            rr = ReflectionUtils.newInstance(SequenceFileRecordReader.class, context.getConfiguration());

	        }  

	        FileSplit fileSplit = new FileSplit(this.split.getPath(index),

	                this.split.getOffset(index), this.split.getLength(index),

	                this.split.getLocations());  

	        this.rr.initialize(fileSplit, this.context);

	    }  

	    @Override

	    public float getProgress() throws IOException, InterruptedException {

	        return rr.getProgress();

	    }  

	    @Override

	    public void close() throws IOException {

	        if (null != rr) {

	            rr.close();

	            rr = null;

	        }

	    }  

	    @Override

	    public K getCurrentKey()

	    throws IOException, InterruptedException {

	        return rr.getCurrentKey();

	    }  

	    @Override

	    public V getCurrentValue()

	    throws IOException, InterruptedException {

	        return rr.getCurrentValue();

	    }  

	    @Override

	    public boolean nextKeyValue() throws IOException, InterruptedException {

	        return rr.nextKeyValue();

	    }

	}  

	// 输出格式

	 static class MyOutputFormat extends FileOutputFormat<Text, Text>{

		@Override

		public RecordWriter<Text, Text> getRecordWriter(

				TaskAttemptContext job) throws IOException, InterruptedException {

			return new MyRecordWriter(job);

		}

	}

	  public static class  MyRecordWriter extends RecordWriter<Text, Text> {

		private Map<String, FSDataOutputStream> outputMap = null;

		private static final String LINESEPARATOR = "\n";

		private FileSystem fs;

		private JobContext job;

		public MyRecordWriter(JobContext job) throws IOException {

			this.outputMap = new HashMap<String, FSDataOutputStream>();

			this.job = job;

			this.fs = FileSystem.get(job.getConfiguration());

		}

		// 参考 MultipleOutputs

		public void write(Text key, Text value) throws IOException {

			String k = key.toString();

			if(k.isEmpty())

				return;

			FSDataOutputStream out = outputMap.get(k);

			if(out==null) {

				if(k.isEmpty())

					System.out.println(value.toString());

				Path outputPath = new Path(FileOutputFormat.getOutputPath(job), k);

				if(!fs.exists(outputPath))

					out = fs.create(outputPath);

				else

					return;

				outputMap.put(k, out);

			}

			out.write(value.getBytes());

			out.write(LINESEPARATOR.getBytes());

		}

		@Override

		public void close(TaskAttemptContext context) throws IOException,

				InterruptedException {

			for(FSDataOutputStream out : outputMap.values()) {

				out.close();

			}

		}

	}

	public int run(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = new Job(conf);

		job.setJobName("TestCombine");

		job.setJarByClass(TestCombine.class);

		job.setMapperClass(ProvinceMapper.class);

		job.setReducerClass(ProvinceReducer.class);

		//job.setInputFormatClass(CombineSequenceFileInputFormat.class);

		job.setOutputFormatClass(MyOutputFormat.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		String inpath = "/home/hadoop/tmp/combine";

		String outpath = "/home/hadoop/tmp/combineout";

		Path p = new Path(outpath);

		FileSystem fs = FileSystem.get(conf);

		if (fs.exists(p)){

			fs.delete(p);

		}

		FileInputFormat.addInputPaths(job, inpath);

		FileOutputFormat.setOutputPath(job, p);

		return job.waitForCompletion(true) ? 0 : 1;

	} 

	public static void main(String[] args) throws Exception {

		int ret = ToolRunner.run(new TestCombine(), args);

		System.exit(ret);

	}

}

MR中简单实现自定义的输入输出格式的更多相关文章

Hadoop（七）：自定义输入输出格式
MR输入格式概述数据输入格式 InputFormat. 用于描述MR作业的数据输入规范. 输入格式在MR框架中的作用: 文件进行分块(split),1个块就是1个Mapper任务. 从输入分块中将数 ...
[ACM训练] ACM中巧用文件的输入输出来改写acm程序的输入输出 + ACM中八大输入输出格式
ACM中巧用文件的输入输出来改写acm程序的输入输出经常有见大神们使用文件来代替ACM程序中的IO,尤其是当程序IO比较复杂时,可以使自己能够更专注于代码的测试,而不是怎样敲输入. C/C++代码中 ...
教你一招：在PowerPoint中自定义可输入文本的占位符
日常生活中,当我们设计多媒体课件时,默认的版式其实已经够用了.但是,很多时候,我们需要更加个性一点,所以,我们需要自定义很多东西.本文介绍在PowerPoint中自定义可输入文本的占位符. 一.占位符 ...
在浏览器中简单输入一个网址，解密其后发生的一切（http请求的详细过程）
在浏览器中简单输入一个网址,解密其后发生的一切(http请求的详细过程) 原文链接:http://www.360doc.com/content/14/1117/10/16948208_42571794 ...
Settings > Editor > Live Templates 中自定义快速输入
Settings > Editor > Live Templates 中自定义快速输入
Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式（十一）
推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapredu ...
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中. 默认的partitioner是HashPartitin ...
C语言第一次作业——输入输出格式
题目1温度转换本题要求编写程序,计算华氏温度150°F对应的摄氏温度.计算公式:C=5×(F−32)/9,式中:C表示摄氏温度,F表示华氏温度,输出数据要求为整型. 1.实验代码 #include& ...
CString中Format函数与格式输入与输出
CString中Format函数与格式输入与输出 Format是一个非经常常使用.却又似乎非常烦的方法,下面是它的完整概貌.以供大家查询之用: 格式化字符串forma("%d" ...

随机推荐

信号和槽：Qt中最差劲的创造
不要被这个标题唬住了,实际上我是非常认可Qt的.在C++实现的开源产品中没有哪一个的API风格比得上Qt,拥有高度一致性,符合常识,符合直觉,几乎不用学就可以直接上手.或许是由于我们摆脱不了马太效应的 ...
【Linux】网络性能测试工具iperf详细使用图文教程【转】
参考链接:https://www.cnblogs.com/yingsong/p/5682080.html Iperf是一个网络性能测试工具.Iperf可以测试TCP和UDP带宽质量. Iperf可以测 ...
详解 UWP (通用 Windows 平台) 中的两种 HttpClient API
UWP (通用 Windows 平台) 应用开发者在构建通过 HTTP 与 Web 服务或服务器断点交互的应用时,有多种 API 可以选择.要在一个托管 UWP 应用中实现 HTTP 客户端角色,最常 ...
MVC Request.UrlReferrer为null
使用情景,登录后返回登录前访问的页面. 这个时候用到了UrlReferrer var returnUrl = HttpContext.Current.Request.UrlReferrer != nu ...
【实用类String】String类方法的应用案例：查找判断指定字符出现的次数和位置
一.应用要求输入一个字符串,再输入要查找的字符,判断该字符在该字符串中出现的次数. 二.实现思路 1.使用substring()方法将字符串的每个字符存入数组 2.比较数组每个字符是否与指定的字符相 ...
Json/Xml简介和处理模型
JSON json简介 JSON是一种基于文本的数据交换格式,源自JavaScript,用于Web服务和其他连接的应用程序.以下部分介绍了JSON语法,JSON使用概述以及生成和解析JSON的最常用方 ...
struts2返回结果类型
在action下还有result标签 1.result不只有name,其实还有type result返回类型在struts-default.xml默认的配置文件中有定义,可以看到有result-typ ...
安装redis服务端
1. redis服务端和客户端的安装 [root@xxx ~]# cd /usr/local/src [root@xxx src]# wget http://download.redis.io/rel ...
drupal对数据库操作
// nodenode_load($nid = NULL, $vid = NULL, $reset = FALSE);node_load_multiple($nids = array(), $cond ...
asp.net中<input type=button>无法调用后台函数
例如:用<input id="bt1" type="button" runat="server" Onclick="btnL ...

MR中简单实现自定义的输入输出格式

MR中简单实现自定义的输入输出格式的更多相关文章

随机推荐

热门专题