【转载】Hadoop自定义RecordReader

转自：http://www.linuxidc.com/Linux/2012-04/57831.htm

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值，每行的内容作为map的value值，默认的分隔符是回车和换行。

现在要更改map对应的输入的<key,value>值，key对应的文件的路径（或者是文件名），value对应的是文件的内容（content）。

那么我们需要重写InputFormat和RecordReader，因为RecordReader是在InputFormat中调用的，当然重写RecordReader才是重点！

下面看代码InputFormat的重写：

public class chDicInputFormat extends FileInputFormat<Text,Text>
implements JobConfigurable{
private CompressionCodecFactory compressionCodecs = null;
public void configure(JobConf conf) {
compressionCodecs = new CompressionCodecFactory(conf);
}
/**
* @brief isSplitable 不对文件进行切分，必须对文件整体进行处理
*
* @param fs
* @param file
*
* @return false
*/
protected boolean isSplitable(FileSystem fs, Path file) {
// CompressionCodec codec = compressionCodecs.getCode(file);
return false;//以文件为单位，每个单位作为一个split，即使单个文件的大小超过了64M，也就是Hadoop一个块得大小，也不进行分片
}
public RecordReader<Text,Text> getRecordReader(InputSplit genericSplit,
JobConf job, Reporter reporter) throws IOException{
reporter.setStatus(genericSplit.toString());
return new chDicRecordReader(job,(FileSplit)genericSplit);
}
}

下面来看RecordReader的重写：

public class chDicRecordReader implements RecordReader<Text,Text> {
private static final Log LOG = LogFactory.getLog(chDicRecordReader.class.getName());
private CompressionCodecFactory compressionCodecs = null;
private long start;
private long pos;
private long end;
private byte[] buffer;
private String keyName;
private FSDataInputStream fileIn;
public chDicRecordReader(Configuration job,FileSplit split) throws IOException{
start = split.getStart(); //从中可以看出每个文件是作为一个split的
end = split.getLength() + start;
final Path path = split.getPath();
keyName = path.toString();
LOG.info("filename in hdfs is : " + keyName);
final FileSystem fs = path.getFileSystem(job);
fileIn = fs.open(path);
fileIn.seek(start);
buffer = new byte[(int)(end - start)];
this.pos = start;
}
public Text createKey() {
return new Text();
}
public Text createValue() {
return new Text();
}
public long getPos() throws IOException{
return pos;
}
public float getProgress() {
if (start == end) {
.0f;

} else {

.0f, (pos - start) / (float)(end - start));

}

}

public boolean next(Text key, Text value) throws IOException{

while(pos < end) {

key.set(keyName);

value.clear();

fileIn.readFully(pos,buffer);

value.set(buffer);

// LOG.info("---内容: " + value.toString());

pos += buffer.length;

LOG.info("end is : " + end + " pos is : " + pos);

return true;

}

return false;

}

public void close() throws IOException{

if(fileIn != null) {

fileIn.close();

}

}

}

通过上面的代码，然后再在main函数中设置InputFormat对应的类，就可以使用这种新的读入格式了。

【转载】Hadoop自定义RecordReader的更多相关文章

[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...

Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...

Hadoop自定义分组Group
matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...

[转载]hadoop SecondNamenode详解
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现 ...

[转载] Hadoop和Hive单机环境搭建
转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7 ...

[转载] Hadoop MapReduce
转载自http://blog.csdn.net/yfkiss/article/details/6387613和http://blog.csdn.net/yfkiss/article/details/6 ...

Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

Hadoop自定义JobTracker和NameNode管理页面
为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面. 首先, 在org.apache.hadoop ...

hadoop自定义数据类型
统计某手机数据库的每个手机号的上行数据包数量和下行数据包数量数据库类型如下: 数据库内容如下: 下面自定义类型SimLines,类似于平时编写的model import java.io.DataIn ...

随机推荐

php 对象、json 、XML、数组互转
对象转json $json=json_encode($postObj,JSON_FORCE_OBJECT); json转对象 $obj=json_encode($json); json转数组 $arr ...

Win10安装5 —— 系统安装步骤
本文内容皆为作者原创,如需转载,请注明出处:https://www.cnblogs.com/xuexianqi/p/12369698.html 1.打开U盘中的解压好的文件夹后,双击打开"s ...

Jungle Roads POJ - 1251 模板题
#include<iostream> #include<cstring> #include<algorithm> using namespace std; cons ...

[Agc002E/At1999] Candy Piles - 博弈论
有n堆石子,第i堆有ai个石子.有两种操作: 把石子最多的那一堆给丢掉把每一堆全部丢掉一个谁拿走最后石子谁输.判断胜负情况. 直觉转化为一个走棋盘问题考虑如何计算左下角点的状态找到原点最右上方 ...

Postgresql Json Sql
a detailed website about json sql query; official website: here, chinese version: here Json query: - ...

C++——指针1
7.关于内存地址内存空间的访问方式:通过变量名访问,通过地址访问: 地址运算符:& 如:int var; 则&var表示变量var的内存起始地址: //& 出现在声明语句中出 ...

Oracle VM VirtualBox - VBOX_E_FILE_ERROR (0x80BB0004)
问题描述: 导入虚拟电脑 D:\LR\虚拟机相关\CentOS-6.7-x86_64-2G-40G-oracle-IP9\CentOS-6.7-x86_64-2G-40G-oracle-IP9.ovf ...

从零DIY机械键盘/主控方案
自从有了第一套机械键盘,先后修改了接口方案,安装了LED灯等,但是始终无法满足自己的DIY欲望. 于是想到最简单的方法就是用现成的主控,而主控来源于废弃的键盘,如下图: 这种主控也是矩阵方式,只需要测 ...

HDU1241 Oil Deposits（dfs+连通块问题）
背景描述 ztw同志负责探测地下石油储藏.ztw现在在一块矩形区域探测石油.他通过专业设备,来分析每个小块中是否蕴藏石油.如果这些蕴藏石油的小方格相邻(横向相邻,纵向相邻,还有对角相邻),那么它们被认 ...

Python tip
shutil.rmtree() 表示递归删除文件夹下的所有子文件夹和子文件.

【转载】Hadoop自定义RecordReader

【转载】Hadoop自定义RecordReader的更多相关文章

随机推荐

热门专题