MapReduce之自定义InputFormat

在企业开发中，Hadoop框架自带的InputFormat类型不能满足所有应用场景，需要自定义InputFormat来解决实际问题。

自定义InputFormat步骤如下：

（1）自定义一个类继承FilelnputFormat。
（2）自定义一个类继承RecordReader，实现一次读取一个完整文件，将文件名为key，文件内容为value。
（3）在输出时使用SequenceFileOutPutFormat输出合并文件。

无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。

1. 需求

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value(bytes) 对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

（1）输入数据

（2）期望输出文件格式

2. 需求分析

自定义一个类继承FileInputFormat

（1）重写isSplitable()方法，返回false，让文件不可切，整个文件作为1片。

（2）重写createRecordReader()，返回自定义的RecordReader对象
自定义一个类继承RecordReader

在RecordReader中，nextKeyValue()是最重要的方法，返回当前读取到的key-value，如果读到返回true，调用Mapper的map()来处理，否则返回false

3. 编写程序

MyInputFormat.java

/*

 * 1. 改变切片策略，一个文件固定切1片，通过指定文件不可切

 *

 * 2. 提供RR ，这个RR读取切片的文件名作为key,读取切片的内容封装到bytes作为value

 */

public class MyInputFormat extends FileInputFormat {

	@Override

	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

		return new MyRecordReader();

	}

	@Override

	protected boolean isSplitable(JobContext context, Path filename) {

		return false;

	}

}

MyRecordReader.java

/*

 * RecordReader从MapTask处理的当前切片中读取数据

 *

 * XXXContext都是Job的上下文，通过XXXContext可以获取Job的配置Configuration对象

 */

public class MyRecordReader extends RecordReader {

	private Text key;

	private BytesWritable value;

	private String filename;

	private int length;

	private FileSystem fs;

	private Path path;

	private FSDataInputStream is;

	private boolean flag=true;

	// MyRecordReader在创建后，在进入Mapper的run()之前，自动调用

	// 文件的所有内容设置为1个切片，切片的长度等于文件的长度

	@Override

	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

		FileSplit fileSplit=(FileSplit) split;

		filename=fileSplit.getPath().getName();

		length=(int) fileSplit.getLength();

		path=fileSplit.getPath();

		//获取当前Job的配置对象

		Configuration conf = context.getConfiguration();

		//获取当前Job使用的文件系统

		fs=FileSystem.get(conf);

		 is = fs.open(path);

	}

	// 读取一组输入的key-value，读到返回true,否则返回false

	// 将文件的名称封装为key，将文件的内容封装为BytesWritable类型的value，返回true

	// 第二次调用nextKeyValue()返回false

	@Override

	public boolean nextKeyValue() throws IOException, InterruptedException {

		if (flag) {

			//实例化对象

			if (key==null) {

				key=new Text();

			}

			if (value==null) {

				value=new BytesWritable();

			}

			//赋值

			//将文件名封装到key中

			key.set(filename);

			// 将文件的内容读取到BytesWritable中

			byte [] content=new byte[length];

			IOUtils.readFully(is, content, 0, length);

			value.set(content, 0, length);

			flag=false;

			return true;

		}

		return false;

	}

	//返回当前读取到的key-value中的key

	@Override

	public Object getCurrentKey() throws IOException, InterruptedException {

		return key;

	}

	//返回当前读取到的key-value中的value

	@Override

	public Object getCurrentValue() throws IOException, InterruptedException {

		return value;

	}

	//返回读取切片的进度

	@Override

	public float getProgress() throws IOException, InterruptedException {

		return 0;

	}

	// 在Mapper的输入关闭时调用，清理工作

	@Override

	public void close() throws IOException {

		if (is != null) {

			IOUtils.closeStream(is);

		}

		if (fs !=null) {

			fs.close();

		}

	}

}

CustomIFMapper.java

public class CustomIFMapper extends Mapper<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFReducer.java

public class CustomIFReducer extends Reducer<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFDriver.java

public class CustomIFDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/custom");

		Path outputPath=new Path("e:/mroutput/custom");

		//作为整个Job的配置

		Configuration conf = new Configuration();

		//保证输出目录不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// 创建Job

		Job job = Job.getInstance(conf);

		// 设置Job运行的Mapper，Reducer类型，Mapper,Reducer输出的key-value类型

		job.setMapperClass(CustomIFMapper.class);

		job.setReducerClass(CustomIFReducer.class);

		// Job需要根据Mapper和Reducer输出的Key-value类型准备序列化器，通过序列化器对输出的key-value进行序列化和反序列化

		// 如果Mapper和Reducer输出的Key-value类型一致，直接设置Job最终的输出类型

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(BytesWritable.class);

		// 设置输入目录和输出目录

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 设置输入和输出格式

		job.setInputFormatClass(MyInputFormat.class);

		job.setOutputFormatClass(SequenceFileOutputFormat.class);

		// ③运行Job

		job.waitForCompletion(true);

	}

}

MapReduce之自定义InputFormat的更多相关文章

MapReduce自定义InputFormat和OutputFormat
一.自定义InputFormat 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储格式:文件路径+文件的内容 c:/a.txt I love Beijing c:/b.txt ...
MapReduce自定义InputFormat,RecordReader
MapReduce默认的InputFormat是TextInputFormat,且key是偏移量,value是文本,自定义InputFormat需要实现FileInputFormat,并重写creat ...
【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例
MapReduce自定义InputFormat和OutputFormat案例自定义InputFormat 合并小文件需求无论hdfs还是mapreduce,存放小文件会占用元数据信息,白白浪费内 ...
自定义InputFormat和OutputFormat案例
一.自定义InputFormat InputFormat是输入流,在前面的例子中使用的是文件输入输出流FileInputFormat和FileOutputFormat,而FileInputFormat ...
Hadoop(16)-MapReduce框架原理-自定义FileInputFormat
1. 需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文 ...
Hadoop案例（六）小文件处理（自定义InputFormat）
小文件处理(自定义InputFormat) 1.需求分析无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案.将多个小文件合并 ...
自定义inputformat和outputformat
1. 自定义inputFormat 1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优 ...
Hadoop_28_MapReduce_自定义 inputFormat
1. 自定义inputFormat 1.1.需求: 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件,此时就需要有相应解决方案; 1.2.分析: 小文件的优化 ...
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现. Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java ...

随机推荐

Golang实现数的几种遍历
目录 PreOrder recursive Iterative InOrder Iterative PostOrder Iterative PreOrder recursive package mai ...
【asp.net core 系列】- 11 Service层的实现样板
0.前言在<asp.net core 系列>之实战系列中,我们在之前的篇幅中对项目有了一个大概的认知,也搭建了一个基础的项目骨架.那么就让我们继续完善这个骨架,让它更加丰满.这一篇,我将 ...
EJB JMS javax.naming.NameNotFoundException: XXX not bound
练习EJB MessageDrivenBean时部署不成功,一直报错 09:57:29,017 WARN [JmsActivation] Failure in jms activation org.j ...
使用word2016发有代码高亮的博客
复制使用notepad++,eclipse这类有高亮的编辑器编写的代码到word中是默认有高亮的. 测试有没有代码高亮(eclipse代码): package p_day1; public class ...
SQL注入之注入点的寻找
注入点的判断判断一个链接是否存在注入漏洞,可以通过对其传入的参数(但不仅仅只限于参数,还有cookie注入,HTTP头注入等) 进行构造,然后对服务器返回的内容进行判断来查看是否存在注入点. 注入点 ...
BOM问题-对于php的影响
甲．BOM说明 BOM(Byte Order Mark),是UTF编码方案里用于标识编码的标准标记.这个标记是可选的,UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明当前编码方式.但如果文件 ...
Java常用的文档地址
https://docs.oracle.com/en/ https://docs.oracle.com/en/java/javase/13/ specifications--->langua ...
React-Native WebView使用本地js,css渲染html
前言最近在使用React-Native开发一个App,遇见一个问题,Webview组件根据url来加载页面,但是这样导致的一个问题页面加载的时间有点长,我想优化一下,因为页面只要是一些内容展示,我想 ...
Oracle数据库中，误删除或者修改数据恢复方法
在我们实际工作中,误删除或者修改Oracle数据库中的数据,怎么办呢?这里给大家分享一种解决办法.假如你误操作的时间不超过30分钟(数据库默认的回滚保持段里的数据时间,可以在pl/sql执行窗口按ct ...
Docker可视化工具Portainer
1 前言从没想到Docker也有可视化的工具,因为它的命令还是非常清晰简单的.无聊搜了一下,原来已经有很多Docker可视化工具了.如DockerUI.Shipyard.Rancher.Portai ...