hadoop编程技巧（6）---处理大量的小型数据文件CombineFileInputFormat申请书

代码测试环境：Hadoop2.4

应用场景：当需要处理非常多的小数据文件，这种技术的目的，可以被应用到实现高效的数据处理。

原理：申请书CombineFileInputFormat，能够进行切片合并的时候把多个小的数据文件。因为每个切片将有一个Mapper，当一个Mapper处理的数据比較小的时候，其效率较低。而一般使用Hadoop处理数据时。即默认方式，会把一个输入数据文件当做一个分片。这样当输入文件较小时就会出现效率低下的情况。

实例：

參考前篇blog：hadoop编程小技巧（5）---自己定义输入文件格式类InputFormat。只是这次输入使用两个输入文件，都是小数据量的数据文件。

自己定义输入文件格式：CustomCombineFileInputFormat：

package fz.combineinputformat;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

/**

 * 定义读取类

 * @author fansy

 *

 */

public class CustomCombineFileInputFormat extends CombineFileInputFormat<Text, Text> {

	@Override

	public RecordReader<Text, Text> createRecordReader(InputSplit split,

			TaskAttemptContext context) throws IOException {

		// TODO Auto-generated method stub

		return new CombineFileRecordReader<Text, Text>((CombineFileSplit)split,context,CustomCombineReader.class);

	}

}

自己定义记录读取类CustomCombineReader：

package fz.combineinputformat;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

/**

 * 改动初始化函数

 * @author fansy

 *

 */

public class CustomCombineReader extends RecordReader<Text, Text> {

	private int index;

	private CustomReader in;

	public CustomCombineReader(CombineFileSplit split,TaskAttemptContext cxt,Integer index){

			this.index=index;

			this.in= new CustomReader();

	}

	@Override

	public void initialize(InputSplit split, TaskAttemptContext context)

			throws IOException, InterruptedException {

		CombineFileSplit cfsplit= (CombineFileSplit) split;

		FileSplit fileSplit = new FileSplit(cfsplit.getPath(index),cfsplit.getOffset(index),

				cfsplit.getLength(),cfsplit.getLocations());

		in.initialize(fileSplit, context);

	}

	@Override

	public boolean nextKeyValue() throws IOException, InterruptedException {

		return in.nextKeyValue();

	}

	@Override

	public Text getCurrentKey() throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		return in.getCurrentKey();

	}

	@Override

	public Text getCurrentValue() throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		return in.getCurrentValue();

	}

	@Override

	public float getProgress() throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		return in.getProgress();

	}

	@Override

	public void close() throws IOException {

		// TODO Auto-generated method stub

		in.close();

	}

}

能够看到这个类使用了上篇博客的CustomReader类。仅仅是改动了下初始化函数，使得小数据量的文件能够合并到一个分片而已。CustomReader能够參考前篇blog：hadoop编程小技巧（5）---自己定义输入文件格式类InputFormat 。

主类，仅仅需改动（相同參考前篇blog）：

job.setInputFormatClass(CustomCombineFileInputFormat.class);

进行了两次实验。第一次使用CombineFileInputFormat读取，第二次使用TextInputFormat读取。

结果查看：

首先能够从终端看出来：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZmFuc3kxOTkw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="" />

能够看到相同的两个输入文件，任务096仅仅有一个分片。任务097有两个分片；

同一时候在任务监控界面也能够看到Mapper的个数变化：

总结：CombineFileInputFormat具有非常强的应用价值，针对大量小数据具有非常高的处理效率收益。只是。假设是大数据应用，普通情况下可能输入数据都是非常大的，所以。这样的情况也仅仅是针对一些特殊情况的处理。

分享，成长。快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

hadoop编程技巧（6）---处理大量的小型数据文件CombineFileInputFormat申请书的更多相关文章

hadoop编程技巧（8）---Unit Testing (单元测试)
所需的环境: Hadoop相关jar包裹(下载版本的官方网站上可以): 下载junit包裹(新以及). 下载mockito包裹: 下载mrunit包裹: 下载powermock-mockito包裹: ...
hadoop编程技巧（4）---总体情况key按类别搜索TotalOrderPartitioner
Hadoop代码测试版:Hadoop2.4 原理:携带MR该程序随机抽样提取前的输入数据,样本分类,然后,MR该过程的中间Partition此值用于当样品排序分组数据.这使得可以实现全球排名的目的. ...
hadoop编程技巧（3）---定义自己的区划类别Partitioner
Hadoop代码测试环境:Hadoop2.4 原则:在Hadoop的MapReduce过程.Mapper阅读过程完成后数据.它将数据发送到Partitioner.由Partitioner每个记录应当采 ...
BASH的保护性编程技巧
BASH的保护性编程技巧 shell常用逻辑判断 -b file 若文件存在且是一个块特殊文件,则为真 -c file 若文件存在且是一个字符特殊文件,则为真 -d file 若文件存在且是一个目 ...
js异步编程技巧一
异步回调是js的一大特性,理解好用好这个特性可以写出很高质量的代码.分享一些实际用的一些异步编程技巧. 1.我们有些应用环境是需要等待两个http请求或IO操作返回后进行后续逻辑的处理.而这种情况使用 ...
EF – 2.EF数据查询基础（上）查询数据的实用编程技巧
目录 5.4.1 查询符合条件的单条记录 EF使用SingleOrDefault()和Find()两个方法查询符合条件的单条记录. 5.4.2 Entity Framework中的内部数据缓存 DbS ...
VC多文档编程技巧（取消一开始时打开的空白文档）
VC多文档编程技巧(取消一开始时打开的空白文档) http://blog.csdn.net/crazyvoice/article/details/6185461 VC多文档编程技巧(取消一开始时打开的 ...
java命名规范和编程技巧
一个好的java程序首先命名要规范. 命名规范定义这个规范的目的是让项目中所有的文档都看起来像一个人写的,增加可读性,方便维护等作用 Package 的命名 Package 的名字应该都是由一个小写 ...
无插件Vim编程技巧
无插件Vim编程技巧 http://bbs.byr.cn/#!article/buptAUTA/59钻风 2014-03-24 09:43:46 发表于:vim 相信大家看过<简明Vim教程& ...

随机推荐

mysql的入门基础操作
1.数据库的简单介绍 1.1 什么是数据库,就是一个文件系统,使用标准sql对数据库进行操作 1.2 常见的数据库 oracle 是oracle公司的数据库,是一个收费的大型的数据库 DB2,是IB ...
怎样cp文件夹时忽略指定的文件夹和文件
在备份ltedecoder程序时,须要把此文件夹拷由到bak文件夹下.但decoder文件夹下有个大文件,不须要备份,还有日志问题,也不须要备份,怎样实现呢?? 方法: cd /source-dir ...
js静态私有变量（将方法变成原型模式，被所有实例共享，而方法操作变量，故变量是静态）
js静态私有变量(将方法变成原型模式,被所有实例共享,而方法操作变量,故变量是静态) 一.总结 1.js函数中的private和public:js函数中的私有变量 var 变量名,公有变量 this. ...
13、虚拟驱动vivi.c注册过程分析及怎么写V4L2驱动及启动过程
UVC设备也是一个usb设备,在uvc_driver.c中的init函数会调用usb_register注册,根据id_table发送可支持的设备后调用probe函数,其会去uvc_register_c ...
win32程序如何改变字体大小颜色
//设定文字大小和颜色 LOGFONT logfont; //改变输出字体 ZeroMemory(&logfont, sizeof(LOGFONT)); logfont.lfCharSet = ...
【例题5-3 UVA - 10815】Andy's First Dictionary
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 用stringstream来处理中间的标点. ->直接把他变成一个空格. 然后重新输入进去. set默认的字典序就是升序的了. ...
php二维数组中的查找（善于利用基础函数）
php二维数组中的查找(善于利用基础函数) 一.总结真没必要完整的写函数,善于借用 1.array_search()是在以为数组中来找,现在我们要在二维数组数组中来,肯定要借用这个 2.!==fal ...
AVR第5课：蜂鸣器
下面是蜂鸣器的电路图. 代码:蜂鸣器代码. <span style="font-size:18px;">/* *info:buzzer *author:chenlu * ...
Hadoop基本原理之一：MapReduce 分类： A1_HADOOP 2014-08-17 19:26 1113人阅读评论(0) 收藏
1.为什么需要Hadoop 目前,一块硬盘容量约为1TB,读取速度约为100M/S,因此完成一块硬盘的读取需时约2.5小时(写入时间更长).若把数据放在同一硬盘上,且全部数据均需要同一个程序进行处理, ...
【iOS】自己定义TabBarController
一.自己定义的思路 iOS中的TabBarController确实已经非常强大了.大部分主流iOS应用都会採用. 可是往往也不能满足所有的需求,因此须要自己定义TabBar,自己定义须要对系统的Tab ...

hadoop编程技巧（6）---处理大量的小型数据文件CombineFileInputFormat申请书

hadoop编程技巧（6）---处理大量的小型数据文件CombineFileInputFormat申请书的更多相关文章

随机推荐

热门专题