转自:http://www.linuxidc.com/Linux/2012-04/57831.htm

系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。

现在要更改map对应的输入的<key,value>值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。

那么我们需要重写InputFormat和RecordReader,因为RecordReader是在InputFormat中调用的,当然重写RecordReader才是重点!

下面看代码InputFormat的重写:

  1. public class chDicInputFormat extends FileInputFormat<Text,Text>
  2. implements JobConfigurable{
  3. private CompressionCodecFactory compressionCodecs = null;
  4. public void configure(JobConf conf) {
  5. compressionCodecs = new CompressionCodecFactory(conf);
  6. }
  7. /**
  8. * @brief isSplitable 不对文件进行切分,必须对文件整体进行处理
  9. *
  10. * @param fs
  11. * @param file
  12. *
  13. * @return false
  14. */
  15. protected boolean isSplitable(FileSystem fs, Path file) {
  16. //  CompressionCodec codec = compressionCodecs.getCode(file);
  17. return false;//以文件为单位,每个单位作为一个split,即使单个文件的大小超过了64M,也就是Hadoop一个块得大小,也不进行分片
  18. }
  19. public RecordReader<Text,Text> getRecordReader(InputSplit genericSplit,
  20. JobConf job, Reporter reporter) throws IOException{
  21. reporter.setStatus(genericSplit.toString());
  22. return new chDicRecordReader(job,(FileSplit)genericSplit);
  23. }
  24. }

下面来看RecordReader的重写:

  1. public class chDicRecordReader implements RecordReader<Text,Text> {
  2. private static final Log LOG = LogFactory.getLog(chDicRecordReader.class.getName());
  3. private CompressionCodecFactory compressionCodecs = null;
  4. private long start;
  5. private long pos;
  6. private long end;
  7. private byte[] buffer;
  8. private String keyName;
  9. private FSDataInputStream fileIn;
  10. public chDicRecordReader(Configuration job,FileSplit split) throws IOException{
  11. start = split.getStart(); //从中可以看出每个文件是作为一个split的
  12. end = split.getLength() + start;
  13. final Path path = split.getPath();
  14. keyName = path.toString();
  15. LOG.info("filename in hdfs is : " + keyName);
  16. final FileSystem fs = path.getFileSystem(job);
  17. fileIn = fs.open(path);
  18. fileIn.seek(start);
  19. buffer = new byte[(int)(end - start)];
  20. this.pos = start;
  21. }
  22. public Text createKey() {
  23. return new Text();
  24. }
  25. public Text createValue() {
  26. return new Text();
  27. }
  28. public long getPos() throws IOException{
  29. return pos;
  30. }
  31. public float getProgress() {
  32. if (start == end) {
  33. .0f;
  34. else {
  35. .0f, (pos - start) / (float)(end - start));
  36. }
  37. }
  38. public boolean next(Text key, Text value) throws IOException{
  39. while(pos < end) {
  40. key.set(keyName);
  41. value.clear();
  42. fileIn.readFully(pos,buffer);
  43. value.set(buffer);
  44. //      LOG.info("---内容: " + value.toString());
  45. pos += buffer.length;
  46. LOG.info("end is : " + end  + " pos is : " + pos);
  47. return true;
  48. }
  49. return false;
  50. }
  51. public void close() throws IOException{
  52. if(fileIn != null) {
  53. fileIn.close();
  54. }
  55. }
  56. }

通过上面的代码,然后再在main函数中设置InputFormat对应的类,就可以使用这种新的读入格式了。

【转载】Hadoop自定义RecordReader的更多相关文章

  1. [Hadoop] - 自定义Mapreduce InputFormat&OutputFormat

    在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...

  2. Hadoop自定义类型处理手机上网日志

    job提交源码分析 在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...

  3. Hadoop自定义分组Group

    matadata: hadoop a spark a hive a hbase a tachyon a storm a redis a 自定义分组 import org.apache.hadoop.c ...

  4. [转载]hadoop SecondNamenode详解

    SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA.真正的了解了SecondNamenode以后,才发现 ...

  5. [转载] Hadoop和Hive单机环境搭建

    转载自http://blog.csdn.net/yfkiss/article/details/7715476和http://blog.csdn.net/yfkiss/article/details/7 ...

  6. [转载] Hadoop MapReduce

    转载自http://blog.csdn.net/yfkiss/article/details/6387613和http://blog.csdn.net/yfkiss/article/details/6 ...

  7. Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志

    测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析 首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...

  8. Hadoop自定义JobTracker和NameNode管理页面

    为了可以方便地在hadoop的管理界面(namenode和jobtracker)中自定义展示项,使用代理servlet的方式实现了hadoop的管理界面. 首先, 在org.apache.hadoop ...

  9. hadoop自定义数据类型

    统计某手机数据库的每个手机号的上行数据包数量和下行数据包数量 数据库类型如下: 数据库内容如下: 下面自定义类型SimLines,类似于平时编写的model import java.io.DataIn ...

随机推荐

  1. JAVA将图片(本地或者网络资源)转为Base64字符串,将base64字符串存储为本地图片

    代码如下: package com.futuredata.dataservice.util; import java.io.ByteArrayOutputStream; import java.io. ...

  2. Android开发菜单以及子菜单

    package com.example.androidtest; import android.app.Activity; import android.os.Bundle; import andro ...

  3. Oracle Solaris 10 重启后提示 Bad PBR sig

    Solaris 10 安装完毕重启后提示 Bad PBR sig 在磁盘分区的时候,默认自带的 overlap 不要删除,否则启动报错. 分区时,保留overlap(默认显示总容量大小)分区.安装操作 ...

  4. SpringBoot之spring.factories

    组件提供者如何编写出仅需系统开发者进行包引入就可以对spring进行bean注入等操作?   其实在spring库中有提供自动化配置的库spring-boot-autoconfigure,我们只需要引 ...

  5. smarty循环item命名规范

    使用smarty循环渲染数据时第二次循环item复制命名不规范 item=data 后面代码使用data会与后台返回数据冲突 {%foreach from=$data.bind_data key=ke ...

  6. H3C IP路由基础

    一.路由简介 在网络中路由器根据所收到的报文的目的地址选择一条合适的路径,并将报文转发到下一个路由器.路径中最后一个路由器负责将报文转发给目的主机. 路由就是报文在转发过程中的路径信息,用来指导报文转 ...

  7. Mysql-从库只读设置

    主从设置中,如果从库在my.cnf中使用init_connect来限制只读权限的话,从库使用非超级用户(super权限)登陆数据时,无法进行任何操作,仅可维持主从复制. init_connect='S ...

  8. [CF3B] Lorry - 贪心

    有一辆载重量为 v 的货车, 准备运送两种物品. 物品 A 的重量为 1, 物体 B 的重量为 2, 每个物品都有一个价值. 求货车可以运送的物品的最大价值. Solution 考虑把物品分为两类,枚 ...

  9. SmartSVN:File has inconsistent newlines

    用SmartSVN提交文件的时候,提示svn: File has inconsistent newlines 这是由于要提交的文件编码时混合了windows和unix符号导致的. 解决方案 Smart ...

  10. linux - mysql - 忘记用户名、密码

    1, 关闭mysql服务 /etc/rc.d/init.d/mysqld stop 2,使用 –skip-grant-tables选项启动mysql服务 (1)打开文件 mysqld vi /etc/ ...