MR案例：CombineFileInputFormat

CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。

此案例让我明白了三点：详见解读：MR多路径输入和解读：CombineFileInputFormat类

对于单一输入路径情况：

//指定输入格式CombineFileInputFormat

job.setInputFormatClass(CombineTextInputFormat.class); 

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径

CombineTextInputFormat.addInputPath(job, new Path(args[0]));

对于多路径输入情况①：

//指定输入格式CombineFileInputFormat

job.setInputFormatClass(CombineTextInputFormat.class); 

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径(两个)

CombineTextInputFormat.addInputPath(job, new Path(args[0]));

CombineTextInputFormat.addInputPath(job, new Path(args[1]));

多路径输入情况②：

//指定SplitSize

CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);

//指定输入路径,以及指定输入格式

MultipleInputs.addInputPath(job, new Path(args[0]), CombineTextInputFormat.class);

MultipleInputs.addInputPath(job, new Path(args[1]), CombineTextInputFormat.class);

细心观察，还会发现两种多路径输入① ②的区别：(已验证)

第一种方案：先把所有的输入集中起来求出总的输入大小，再除以SplitSize算出总的map个数
第二种方案：先分别算出每个MultipleInputs路径对应的map个数，再对两个MultipleInputs的map个数求和

完整的代码：

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;

import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount0826 {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCount0826.class);      

        job.setMapperClass(IIMapper.class);

        job.setReducerClass(IIReducer.class);

        job.setNumReduceTasks(5);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(VLongWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(VLongWritable.class);

        //CombineFileInputFormat类

        //job.setInputFormatClass(CombineTextInputFormat.class);

        CombineTextInputFormat.setMaxInputSplitSize(job, 60*1024*1024L);


 

        //CombineTextInputFormat.addInputPath(job, new Path(args[0]));

        //CombineTextInputFormat.addInputPath(job, new Path(args[1]));

        MultipleInputs.addInputPath(job, new Path(args[0]), CombineTextInputFormat.class);

        MultipleInputs.addInputPath(job, new Path(args[1]), CombineTextInputFormat.class);


 

        FileOutputFormat.setOutputPath(job, new Path(args[2]));

        System.exit(job.waitForCompletion(true)? 0:1);

    }

    //map

    public static class IIMapper extends Mapper<LongWritable, Text, Text, VLongWritable>{

        @Override

        protected void map(LongWritable key, Text value,Context context)

                throws IOException, InterruptedException {

            String[] splited = value.toString().split(" "); 

            for(String word : splited){

                context.write(new Text(word),new VLongWritable(1L));

            }

        }

    }

    //reduce

    public static class IIReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)

                throws IOException, InterruptedException {

            long sum=0;

            for(VLongWritable vl : v2s){

                sum += vl.get();

            }

            context.write(key, new VLongWritable(sum));

        }

    }

}

MR案例：CombineFileInputFormat的更多相关文章

MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
MR案例：分区和排序
现有一学生成绩数据,格式如下:<学号,姓名,学院,成绩> //<id, name, institute, grade>. 需求描述:查询成绩大于等于60分的学生数据,按学院分 ...
MR案例：链式ChainMapper
类似于Linux管道重定向机制,前一个Map的输出直接作为下一个Map的输入,形成一个流水线.设想这样一个场景:在Map阶段,数据经过mapper01和mapper02处理:在Reduce阶段,数据经 ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
MR案例：基站相关01
字段解释: product_no:用户手机号: lac_id:用户所在基站: start_time:用户在此基站的开始时间: staytime:用户在此基站的逗留时间. product_no lac_ ...

随机推荐

Java中分页功能源码实例
一.源码(后附使用说明) package com.zhiyou100.crm.util; /** * 分页功能 * @author YangXianSheng * */ public class Pa ...
Web端测试
一.功能测试 1.链接测试 1)所有链接是否按指示的那样,链接正确? 2)所有链接是否存在? 3)保证Web应用系统上没有孤立的页面? 在线链接测试地址:http://v ...
textarea文本输入区内实现换行
在文本间输入即可成功换行 <textarea class="mytextarea">1.第一行 2.第二行 </textarea>
TCP粘包/拆包 ByteBuf和channel 如果没有Netty？传统的多线程服务器，这个也是Apache处理请求的模式
通俗地讲,Netty 能做什么? - 知乎 https://www.zhihu.com/question/24322387 谢邀.netty是一套在java NIO的基础上封装的便于用户开发网络应用程 ...
[LeetCode] 7.Reverse Integer - Swift
Reverse digits of an integer. Example1: x = , return Example2: x = -, return - 题目意思:对一个整型进行反转实现代码: ...
在HTML里面HEAD部分的META元素要表达的内容是什么
1.name属性主要有以下几种参数: A.Keywords(关键字) 说明:keywords用来告诉搜索引擎你网页的关键字是什么. 举例:<meta name ="keywords&q ...
剑指Offer——矩阵中的路径
题目描述: 请设计一个函数,用来判断在一个矩阵中是否存在一条包含某字符串所有字符的路径.路径可以从矩阵中的任意一个格子开始,每一步可以在矩阵中向左,向右,向上,向下移动一个格子.如果一条路径经过了矩阵 ...
POJ1330Nearest Common Ancestors最近公共祖先LCA问题
用的离线算法Tarjan 该算法的详细解释请戳 http://www.cnblogs.com/Findxiaoxun/p/3428516.html 做这个题的时候,直接把1470的代码copy过来,改 ...
为golang程序使用pprof远程查看httpserver运行堆栈,cpu耗时等信息
pprof是个神马玩意儿? pprof - manual page for pprof (part of gperftools) 是gperftools工具的一部分 gperftools又是啥? Th ...
利用AES算法加密数据
准备工作: 模块安装问题: 首先在python中安装Crypto这个包但是在安装模块后在使用过程中他会报错下面是解决方法: pip3 install pycrypto 安装会报错 https:// ...

MR案例：CombineFileInputFormat

MR案例：CombineFileInputFormat的更多相关文章

随机推荐

热门专题