MR案例：定制InputFormat

数据输入格式

InputFormat类用于描述MR作业的输入规范，主要功能：输入规范检查（比如输入文件目录的检查）、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。细节详见解读：标准输入/输出格式

Hadoop中最常用的数据输入格式包括：TextInputFormat 和 KeyValueInputFormat。

　　1). TextInputFormat 是系统默认的数据输入格式，可以将文件的每一行解析成一个键值对。其中，Key是当前行在整个文件中的字节偏移量，而Value就是该行的内容。默认的RecordReader是LineRecordReader。

　　2). KeyValueInputFormat是将一个按照<key,value>格式存放的文本文件逐行读出，并自动解析生成相应的key和value。默认是KeyValueLineRecordReader。

定制数据输入格式

用户可以从基类 InputFormat 和 RecordReader 开始定制过程，主要实现 InputFormat 中的 createRecordReader() 和 getSplits() 两个抽象方法，而 RecordReader 中则需要实现 gerCurrentKey() 和 getCurrentValue() 几个抽象方法。

需求：为了能更细粒的记录每个单词在文档中出现时的行位置信息FileName@LineOffset。

方法一：基于默认的TextInputFormat和LineRecordReader

public static class IIMapper extends Mapper<Text, Text, Text, Text>{

        @Override


    //输出key：word         输出value:FileName@LineOffset

        protected void map(Text key, Text value,Context context)

                throws IOException, InterruptedException {


 

　　　　//得到输入文件的文件名FileName（优化：应在setup方法中获取）

　　　　FileSplit fileSplit = (FileSplit)context.getInputSplit();

            String name = fileSplit.getPath().getName();


 

　　　　//组装拼接Value： FileName@LineOffset

　　　　Text fileName_lineOffset=new Text(name+"@"+key.toString());


 

            String[] splited = value.toString().split("\t");

            for(String word : splited){

                context.write(new Text(word), fileName_lineOffset);

            }

   }

}

方法二：基于 TextInputFormat 和 LineRecordReader 定制 FileNameInputFormat 和 FileNameRecordReader

package invertedIndex;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;

public class FileNameRecordReader extends RecordReader<Text, Text> {

    //成员变量

    String fileName;

  

    //实例化一个LineRecordReader实例

    LineRecordReader lrr=new LineRecordReader();

    @Override

    public void initialize(InputSplit split, TaskAttemptContext context)

            throws IOException, InterruptedException {

        //调用LineRecordReader类的初始化方法

        lrr.initialize(split, context);

        //获取当前InputSplit的文件名

        fileName=((FileSplit)split).getPath().getName();

    }

    @Override

    public Text getCurrentKey() throws IOException, InterruptedException {

        //调用LineRecordReader类的方法,拼接key

        //其中lrr.getCurrentKey()返回：当前行在整个文本文件中的字节偏移量

        return new Text("("+fileName+"@"+lrr.getCurrentKey().toString()+")");

    }

    @Override

    public Text getCurrentValue() throws IOException, InterruptedException {

        //调用LineRecordReader类的方法

        return lrr.getCurrentValue();

}    

    @Override

    public boolean nextKeyValue() throws IOException, InterruptedException {

        return lrr.nextKeyValue();

    }

    @Override

    public float getProgress() throws IOException, InterruptedException {

        return lrr.getProgress();

    }

    @Override

    public void close() throws IOException {

        lrr.close();

    }

}

package invertedIndex;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.TaskAttemptContext;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class FileNameInputFormat extends FileInputFormat<Text, Text>{

    @Override

    public RecordReader<Text, Text> createRecordReader(InputSplit split,

            TaskAttemptContext context) throws IOException, InterruptedException {

        FileNameRecordReader fnrr = new FileNameRecordReader();

        //调用FileNameRecordReader的初始化方法

        fnrr.initialize(split, context);

        return fnrr;

    }

}

使用自定义的 FileNameInputFormat 和 FileNameRcordReader ：

package invertedIndex;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class InvertedIndex {

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(InvertedIndex.class);


 

        //设置数据输入格式【使用自定义的InputFormat】

        job.setInputFormatClass(FileNameInputFormat.class);


 

        job.setMapperClass(FFMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);


 

        job.setNumReduceTasks(0);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);


 

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));


 

        job.waitForCompletion(true);

    }

    public static class FFMapper extends Mapper<Text, Text, Text, Text>{

        @Override

        protected void map(Text key, Text value, Context context)

                throws IOException, InterruptedException {


 

            //分词

            StringTokenizer st = new StringTokenizer(value.toString());


            for(;st.hasMoreTokens();){


 

                //key：单词word        value：FileName+偏移量

                context.write(new Text(st.nextToken()), key);

            }

        }

    }

}

输出结果为：key:单词，value：FileName@偏移量

read (data1@0)

file (data1@0)

read (data1@11)

data (data1@11)

数据输出格式

数据输出格式（OutputFormat）用于描述MR作业的数据输出规范。主要功能：输出规范检查(如检查输出目录是否存在)，以及提供作业结果数据输出功能。

Hadoop默认的数据输出格式是TextOutputFormat，可以将结果以【key+\t+value】的形式逐行输出。默认的RecordWriter是LineRecordWriter。

MR案例：定制InputFormat的更多相关文章

MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：定制Partitioner
可以继承基类Partitioner,也可以继承默认的HashPartitioner类,覆写其中的 getPartition() 方法实现自己的分区. 需求:本例是对上一个实例的改写,需求不变 pack ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：小文件合并SequeceFile
SequeceFile是Hadoop API提供的一种二进制文件支持.这种二进制文件直接将<key, value>对序列化到文件中.可以使用这种文件对小文件合并,即将文件名作为key,文件 ...
MR案例：MR和Hive中使用Lzo压缩
在MapReduce中使用lzo压缩 1).首先将数据文件在本地使用lzop命令压缩.具体配置过详见配置hadoop集群的lzo压缩 //压缩lzop,解压缩lzop -d [root@ncst wo ...

随机推荐

VMware虚拟机下安装CentOS7.0超详细图文教程
1.本文说明: 官方的第一个文本档案.也就是0_README.txt,大概意思是这样(渣翻译,但是大概意思还是有的). CentOS-7.0-1406-x86_64-DVD.iso:这个镜像(DVD ...
git学习（5）分支管理（续）
git学习(5)分支管理(续) 1.解决冲突冲突的产生如我们在新建分支和原来master分支上对同一文件做了修改并提交,在合并分支的时候就会遇到冲突比如我新建了分支myBranch,在这个分支上 ...
苏宁易购Android架构演进史
互联网后端架构 https://mp.weixin.qq.com/s/5lDXjMh6ghQNi4E7qQIEEg 互联网后端架构 10月9日摘要移动青铜时代(2012-2014) 时代特点: 移 ...
mongodb批量插入数据
年前由于公司业务需要,后台需要获取流水记录,需要每天定时跑脚本,将流水记录跑入库里边,每天大概有个一百万左右,使用的数据库是mongodb,考虑到一条一条录入数据,100多万会跑断,就想着批量录入数据 ...
Storm编程模型及组件流程图
一.Storm编程模型二.Storm组件流程图
21.SQL to MongoDB Mapping Chart-官方文档摘录
有关关系型数据库跟Mongod的语法对比 In addition to the charts that follow, you might want to consider the Frequentl ...
python一两行代码完成的骚操作
分享一个前几天晚上粉丝问的问题,觉得很实用的一个问题,用python读取Excel并保存字典,如何做? 下面是该同学问题截图和代码代码截图是下面这样的不知道大家第一眼看了这个代码,什么感受 ...
C# 编写 TensorFlow 人工智能应用
TensorFlowSharp入门使用C#编写TensorFlow人工智能应用学习. TensorFlow简单介绍 TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,T ...
Spark2.0机器学习系列之8：多类分类问题（方法归总和分类结果评估）
一对多(One-vs-Rest classifier) 将只能用于二分问题的分类(如Logistic回归.SVM)方法扩展到多类. 参考:http://www.cnblogs.com/CheeseZH ...
H5移动端的一些坑、、、
H5项目常见问题及注意事项 Meta基础知识: H5页面窗口自动调整到设备宽度,并禁止用户缩放页面 //一.HTML页面结构 <meta name="viewport" co ...

MR案例：定制InputFormat

MR案例：定制InputFormat的更多相关文章

随机推荐

热门专题