一个combineInputformat

mark

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.compress.CompressionCodec;

import org.apache.hadoop.io.compress.CompressionCodecFactory;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.CombineFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader;

import org.apache.hadoop.mapreduce.lib.input.CombineFileSplit;

import org.apache.hadoop.util.LineReader;

public class MyInputFormat extends CombineFileInputFormat<InputSplitFile, Text> {

    @Override

    public RecordReader<InputSplitFile, Text> createRecordReader(InputSplit split, TaskAttemptContext context)

            throws IOException {

        return new CombineFileRecordReader<InputSplitFile, Text>((CombineFileSplit)split, context, MyCombineFileRecordReader.class);

    }

}

class MyCombineFileRecordReader extends RecordReader<InputSplitFile, Text> {

    private static final Log LOG = LogFactory.getLog(MyCombineFileRecordReader.class);

    private CompressionCodecFactory compressionCodecs = null;

    private long start;

    private long pos;

    private long end;

    private Path path;

    private LineReader in;

    private int maxLineLength;

    private InputSplitFile key = null;

    private Text value = null;

    public MyCombineFileRecordReader(CombineFileSplit split, TaskAttemptContext context, Integer index) throws IOException{

        Configuration job = context.getConfiguration();

        this.maxLineLength = job.getInt("mapred.linerecordreader.maxlength", Integer.MAX_VALUE);

        this.path = split.getPath(index);

        this.start = split.getOffset(index);

        this.end = start + split.getLength(index);

        compressionCodecs = new CompressionCodecFactory(job);

        final CompressionCodec codec = compressionCodecs.getCodec(this.path);

        boolean skipFirstLine = false;

        FileSystem fs = path.getFileSystem(job);

        FSDataInputStream fileIn = fs.open(split.getPath(index));

        if (codec != null) {

              in = new LineReader(codec.createInputStream(fileIn), job);

              end = Long.MAX_VALUE;

            } else {

              if (start != 0) {

                skipFirstLine = true;

                --start;

                fileIn.seek(start);

              }

              in = new LineReader(fileIn, job);

            }

            if (skipFirstLine) {  // skip first line and re-establish "start".

              start += in.readLine(new Text(), 0,

                                   (int)Math.min((long)Integer.MAX_VALUE, end - start));

            }

            this.pos = start;

    }

    @Override

    public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

        // TODO Auto-generated method stub

    }

    @Override

    public boolean nextKeyValue() throws IOException, InterruptedException {

        if(key == null){

            key = new InputSplitFile();

            key.setFileName(path.getName());

        }

        key.setFileName(path.getName());

        if(value == null){

            value = new Text();

        }

        int newSize = 0;

        while(pos < end){

            newSize = in.readLine(value, maxLineLength, Math.max((int)Math.min(Integer.MAX_VALUE, end-pos), maxLineLength));

            if(newSize == 0){

                break;

            }

            pos += newSize;

            if(newSize < maxLineLength){

                break;

            }

            // line too long. try again

              LOG.info("Skipped line of size " + newSize + " at pos " +

                       (pos - newSize));

            }

            if (newSize == 0) {

              key = null;

              value = null;

              return false;

            } else {

              return true;

            }

    }

    @Override

    public InputSplitFile getCurrentKey() throws IOException, InterruptedException {

        return key;

    }

    @Override

    public Text getCurrentValue() throws IOException, InterruptedException {

        return value;

    }

    @Override

    public float getProgress() throws IOException, InterruptedException {

        if(start == end){

        return 0.0f;

        }else {

            return Math.min(1.0f, (pos - start)/(float)(end-start));

        }

    }

    @Override

    public void close() throws IOException {

        if(in != null){

            in.close();

        }

    }

}

class InputSplitFile implements WritableComparable<InputSplitFile> {

    private long offset;

    private String fileName;

    public long getOffset(){

        return offset;

    }

    public void setOffset(long offset){

        this.offset = offset;

    }

    public String getFileName(){

        return fileName;

    }

    public void setFileName(String fileName){

        this.fileName = fileName;

    }

    public void readFields(DataInput in) throws IOException {

        this.offset = in.readLong();

        this.fileName = Text.readString(in);

    }

    public void write(DataOutput out) throws IOException{

        out.writeLong(offset);

        Text.writeString(out, fileName);

    }

    public int compareTo(InputSplitFile o){

        InputSplitFile that = (InputSplitFile) o;

        int f = this.fileName.compareTo(that.fileName);

        if(f == 0){

            return (int)Math.signum((double)(this.offset - that.offset));

        }

        return f;

    }

    public boolean equals(InputSplitFile obj){

        if(obj instanceof InputSplitFile){

            return this.compareTo(obj) == 0;

        }

        return false;

    }

    public int hashCode(){

        assert false : "hashCode not designed";

    return 42;//an arbitrary constant

    }

}

一个combineInputformat的更多相关文章

为什么很多人坚信“富贵险中求”？
之家哥 2017-11-15 09:12:31 微信QQ微博下载APP 摘要网贷之家小编根据舆情频道的相关数据,精心整理的关于<为什么很多人坚信"富贵险中求"?>的 ...
python基础全部知识点整理,超级全(20万字+)
目录 Python编程语言简介 https://www.cnblogs.com/hany-postq473111315/p/12256134.html Python环境搭建及中文编码 https:// ...
Tomcat一个BUG造成CLOSE_WAIT
之前应该提过,我们线上架构整体重新架设了,应用层面使用的是Spring Boot,前段日子因为一些第三方的原因,略有些匆忙的提前开始线上的内测了.然后运维发现了个问题,服务器的HTTPS端口有大量的C ...
如何一步一步用DDD设计一个电商网站（九）—— 小心陷入值对象持久化的坑
阅读目录前言场景1的思考场景2的思考避坑方式实践结语一.前言在上一篇中(如何一步一步用DDD设计一个电商网站(八)—— 会员价的集成),有一行注释的代码: public interfa ...
如何一步一步用DDD设计一个电商网站（八）—— 会员价的集成
阅读目录前言建模实现结语一.前言前面几篇已经实现了一个基本的购买+售价计算的过程,这次再让售价丰满一些,增加一个会员价的概念.会员价在现在的主流电商中,是一个不大常见的模式,其带来的问题是 ...
SQLSERVER将一个文件组的数据移动到另一个文件组
SQLSERVER将一个文件组的数据移动到另一个文件组有经验的大侠可以直接忽视这篇文章~ 这个问题有经验的人都知道怎麽做,因为我们公司的数据量不大没有这个需求,也不知道怎麽做实验今天求助了QQ群里 ...
构建一个基本的前端自动化开发环境 —— 基于 Gulp 的前端集成解决方案（四）
通过前面几节的准备工作,对于 npm / node / gulp 应该已经有了基本的认识,本节主要介绍如何构建一个基本的前端自动化开发环境. 下面将逐步构建一个可以自动编译 sass 文件.压缩 ja ...
【造轮子】打造一个简单的万能Excel读写工具
大家工作或者平时是不是经常遇到要读写一些简单格式的Excel? shit!~很蛋疼,因为之前吹牛,就搞了个这东西,还算是挺实用,和大家分享下. 厌烦了每次搞简单类型的Excel读写?不怕~来,喜欢流式 ...
如何一步一步用DDD设计一个电商网站（十）—— 一个完整的购物车
阅读目录前言回顾梳理实现结语一.前言之前的文章中已经涉及到了购买商品加入购物车,购物车内购物项的金额计算等功能.本篇准备把剩下的购物车的基本概念一次处理完. 二.回顾在动手之前我对之 ...

随机推荐

MFC下DLL编程(图解)
MFC下DLL编程(图解) DLL(Dynamic Link Library,动态链接库)是微软公司为Windows和OS/2操作系统设计一种供应用程序在运行时调用的共享函数库.DLL是应用程序的一种 ...
Internet History, Technology and Security (Week1)
Week1. History: Dawn of Electronic Computing War Time Computing and Conmmunication Keywords: Electro ...
为什么要重写equals和hashCode
1.重写equals方法时需要重写hashCode方法,主要是针对Map.Set等集合类型的使用: a: Map.Set等集合类型存放的对象必须是唯一的: b: 集合类判断两个对象是否相等,是先判断e ...
view视图--display中echo出ob_get_contents的缓冲内容--(实现,拼接好文件--导入文件)
view.php01默认设置有3个公共的属性,其他属性.后面实例化的时候.通过传递参数.foreach遍历,不断的增加属性02view对象的实例化.位置在-->控制器父类的构造方法中视图的目录名 ...
HDU1686:Oulipo
Problem Description The French author Georges Perec (1936–1982) once wrote a book, La disparition, w ...
Eclipse中配置weka，以及添加算法
Eclipse中配置weka 1 找到weka的安装位置,寻找weka的压缩文件weka-src.jar,将压缩文件解压,解压出的文件夹weka-src. 2 打开Eclipse,新建Java pro ...
dfs.replication 参数动态修改
首先 dfs.replication这个参数是个client参数,即node level参数.需要在每台datanode上设置.其实默认为3个副本已经够用了,设置太多也没什么用. 一个文件,上传到hd ...
运维命令rsync
如果你是一位运维工程师,你很可能会面对几十台.几百台甚至上千台服务器,除了批量操作外,环境同步.数据同步也是必不可少的技能. 说到“同步”,不得不提的利器就是rsync,今天就来说说我从这个工具中看到 ...
Qt之打包发布（NSIS详解）
来源:http://blog.sina.com.cn/s/blog_a6fb6cc90101fer8.html 发布方式 Qt发布的时候,通常使用两种方式: (1)静态编译 (2)动态编译 ...
tomcat连接数设置
如何加大tomcat连接数在tomcat配置文件server.xml中的<Connector ... />配置中,和连接数相关的参数有:minProcessors:最小空闲连接线程数,用 ...

一个combineInputformat

一个combineInputformat的更多相关文章

随机推荐

热门专题