转自:http://www.linuxidc.com/Linux/2012-04/57831.htm

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。

现在要更改map对应的输入的<key,value>值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。

那么我们需要重写InputFormat和RecordReader,因为RecordReader是在InputFormat中调用的,当然重写RecordReader才是重点!

下面看代码InputFormat的重写:

  1. public class chDicInputFormat extends FileInputFormat<Text,Text>
  2. implements JobConfigurable{
  3. private CompressionCodecFactory compressionCodecs = null;
  4. public void configure(JobConf conf) {
  5. compressionCodecs = new CompressionCodecFactory(conf);
  6. }
  7. /**
  8. * @brief isSplitable 不对文件进行切分,必须对文件整体进行处理
  9. *
  10. * @param fs
  11. * @param file
  12. *
  13. * @return false
  14. */
  15. protected boolean isSplitable(FileSystem fs, Path file) {
  16. //  CompressionCodec codec = compressionCodecs.getCode(file);
  17. return false;//以文件为单位,每个单位作为一个split,即使单个文件的大小超过了64M,也就是Hadoop一个块得大小,也不进行分片
  18. }
  19. public RecordReader<Text,Text> getRecordReader(InputSplit genericSplit,
  20. JobConf job, Reporter reporter) throws IOException{
  21. reporter.setStatus(genericSplit.toString());
  22. return new chDicRecordReader(job,(FileSplit)genericSplit);
  23. }
  24. }

下面来看RecordReader的重写:

  1. public class chDicRecordReader implements RecordReader<Text,Text> {
  2. private static final Log LOG = LogFactory.getLog(chDicRecordReader.class.getName());
  3. private CompressionCodecFactory compressionCodecs = null;
  4. private long start;
  5. private long pos;
  6. private long end;
  7. private byte[] buffer;
  8. private String keyName;
  9. private FSDataInputStream fileIn;
  10. public chDicRecordReader(Configuration job,FileSplit split) throws IOException{
  11. start = split.getStart(); //从中可以看出每个文件是作为一个split的
  12. end = split.getLength() + start;
  13. final Path path = split.getPath();
  14. keyName = path.toString();
  15. LOG.info("filename in hdfs is : " + keyName);
  16. final FileSystem fs = path.getFileSystem(job);
  17. fileIn = fs.open(path);
  18. fileIn.seek(start);
  19. buffer = new byte[(int)(end - start)];
  20. this.pos = start;
  21. }
  22. public Text createKey() {
  23. return new Text();
  24. }
  25. public Text createValue() {
  26. return new Text();
  27. }
  28. public long getPos() throws IOException{
  29. return pos;
  30. }
  31. public float getProgress() {
  32. if (start == end) {
  33. .0f;
  34. else {
  35. .0f, (pos - start) / (float)(end - start));
  36. }
  37. }
  38. public boolean next(Text key, Text value) throws IOException{
  39. while(pos < end) {
  40. key.set(keyName);
  41. value.clear();
  42. fileIn.readFully(pos,buffer);
  43. value.set(buffer);
  44. //      LOG.info("---内容: " + value.toString());
  45. pos += buffer.length;
  46. LOG.info("end is : " + end  + " pos is : " + pos);
  47. return true;
  48. }
  49. return false;
  50. }
  51. public void close() throws IOException{
  52. if(fileIn != null) {
  53. fileIn.close();
  54. }
  55. }
  56. }

通过上面的代码,然后再在main函数中设置InputFormat对应的类,就可以使用这种新的读入格式了。

【转载】Hadoop自定义RecordReader的更多相关文章

  1. [Hadoop] - 自定义Mapreduce InputFormat&OutputFormat

    在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...

  2. Hadoop自定义类型处理手机上网日志

    job提交源码分析 在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...

  3. Hadoop自定义分组Group

    matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...

  4. [转载]hadoop SecondNamenode详解

    SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现 ...

  5. [转载] Hadoop和Hive单机环境搭建

    转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7 ...

  6. [转载] Hadoop MapReduce

    转载自http://blog.csdn.net/yfkiss/article/details/6387613和http://blog.csdn.net/yfkiss/article/details/6 ...

  7. Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志

    测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析 首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

  8. Hadoop自定义JobTracker和NameNode管理页面

    为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面. 首先, 在org.apache.hadoop ...

  9. hadoop自定义数据类型

    统计某手机数据库的每个手机号的上行数据包数量和下行数据包数量 数据库类型如下: 数据库内容如下: 下面自定义类型SimLines,类似于平时编写的model import java.io.DataIn ...

随机推荐

  1. exe 发布为服务

    参考连接: https://www.cnblogs.com/liuxiaoji/p/8016261.html 1.有两个文件 srvany.exe,instsrv.exe 然后放到指定的文件下下: 2 ...

  2. C# LINQ学习笔记二:LINQ标准查询操作概述

    本笔记摘抄自:https://www.cnblogs.com/liqingwen/p/5801249.html,记录一下学习过程以备后续查用. “标准查询运算符”是组成语言集成查询 (LINQ) 模式 ...

  3. hyper-v虚拟机不能访问外网的解决方案

    直接说解决方案,将虚拟机的一张网卡改为旧版网络适配器即可.具体原因还不可知. 延申一下,一般应该使用的交换机,是“外部”类型即可.

  4. pyecharts包学习笔记

    目录 pyecharts包简介 特性 or 优点 版本 pyecharts包简介 精巧的图表设计.原作者说,当数据分析遇到数据可视化的时候github,该包就诞生了. 可以批量,直观的输出可视化图标吧 ...

  5. TCP/IP协议和socket

    1.传输层基于tcp协议的三次握手和四次挥手? 传输层有两种数据传输协议,分别为TCP协议和UDP协议,其中TCP协议为可靠传输,数据包没有长度设置,理论可以无限长,而UDP协议为不可靠传输,报头一共 ...

  6. java_HashMap的遍历方法_4种

    1.通过接收keySet来遍历: HashMap<String,String> map = new HashMap<>(); map.put("bb",&q ...

  7. Python之路Day11

    函数名的第一类对象及使用 当作值,赋值给变量 def func(): print(1) print(func) #查看函数的内存地址 a=func print(a) a() 可以当作容器中的元素 de ...

  8. nginx 部署php项目 404

    服务器重启了一下 然后访问程序报错404的情况 文件存在位置没有问题 niginx配置根目录没有问题 最后检查到端口的时候发现php-fpm的9000端口未打开 service php-fpm res ...

  9. (转)git fetch + merge 和 git pull 的区别

    转自:http://blog.csdn.net/a19881029/article/details/42245955 Git fetch和git pull都可以用来更新本地库,它们之间有什么区别呢? ...

  10. const真有点烦

    在C++中const代替#define的操作,当定义一个const时必须附一个值给它:const int size = 100;通常C++编译器不为const创建存储空间,相反它把这个定义保存在符号表 ...