MR案例：输出/输入SequenceFile

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SequenceFile文件中，每一个key-value对被看做是一条记录(Record)，基于Record的压缩策略，SequenceFile文件支持三种压缩类型：

NONE: 对records不进行压缩; (组合1)

RECORD: 仅压缩每一个record中的value值(不包括key); (组合2)

BLOCK: 将一个block中的所有records(包括key)压缩在一起;(组合3)

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.SequenceFile.CompressionType;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

public class Test0829 {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(Test0829.class);

        job.setMapperClass(WCMapper.class);

        job.setReducerClass(WCReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(VLongWritable.class);        

        // 设置输出类

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        /**

         * 设置sequecnfile的格式，对于sequencefile的输出格式，有多种组合方式,

         * 从下面的模式中选择一种，并将其余的注释掉

         */


        // 组合方式1：不压缩模式

        SequenceFileOutputFormat.setOutputCompressionType(job, CompressionType.NONE);

        //组合方式2：record压缩模式，并指定采用的压缩方式 ：默认、gzip压缩等

        //        SequenceFileOutputFormat.setOutputCompressionType(job,

        //                CompressionType.RECORD);

        //        SequenceFileOutputFormat.setOutputCompressorClass(job,

        //                DefaultCodec.class);

        //组合方式3：block压缩模式，并指定采用的压缩方式 ：默认、gzip压缩等

        //        SequenceFileOutputFormat.setOutputCompressionType(job,

        //                CompressionType.BLOCK);

        //        SequenceFileOutputFormat.setOutputCompressorClass(job,

        //                DefaultCodec.class);

        FileInputFormat.addInputPaths(job, args[0]);

        SequenceFileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    //map

    public static class WCMapper extends

    Mapper<LongWritable, Text, Text, VLongWritable> {

        public void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            String[] split = value.toString().split(":",2);

            if(split.length!=1){

                String[] splited = split[1].split(",");

                for(String s : splited){

                    context.write(new Text(s), new VLongWritable(1L));

                }

            }

        }

    }

    //reduce

    public static class WCReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)

                throws IOException, InterruptedException {

            long sum=0;

            for(VLongWritable vl : v2s){

                sum += vl.get();

            }

            context.write(key, new VLongWritable(sum));

        }

    }

}

MR输入SequenceFile

当输入文件格式是SequenceFile的时候，要使用SequenceFileInputformat类。由于SequenceFile都是以key和value的二进制形式存放的(注意hadoop类型的二进制的解释方式和原始二进制不一样，会多一些维护信息)，所以在读取SequenceFile文件时必须预先知道key和value对应的hadoop类型。

对于上面代码产生的SequenceFile结果文件，以SequenceFileInputformat类进行读取。其中key为Text类型，value为VLongWritable类型。

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SFInput02 {

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(SFinput.class);

        job.setMapperClass(SFMapper.class);

        job.setReducerClass(SFReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(VLongWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(VLongWritable.class);

        job.setInputFormatClass(SequenceFileInputFormat.class);

        SequenceFileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    public static class SFMapper extends Mapper<Text, VLongWritable,Text, VLongWritable> {

        public void map(Text key, VLongWritable value, Context context)

                throws IOException, InterruptedException {

            context.write(key, value);

        }

    }

    //reduce

    public static class SFReducer extends Reducer<Text, VLongWritable,Text, VLongWritable>{

        @Override

        protected void reduce(Text key, Iterable<VLongWritable> v2s,Context context)

                throws IOException, InterruptedException {

            for(VLongWritable vl : v2s){

                context.write(key, vl);

            }

        }

    }

}

如若不清楚SequenceFile文件中key和value的类型，可以使用SequenceFileAsTextInputFormat类。它将SequenceFile的key和value都转化成Text对象传入map中。

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileAsTextInputFormat;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SFinput {

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(SFinput.class);

        job.setMapperClass(SFMapper.class);

        job.setReducerClass(SFReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        job.setInputFormatClass(SequenceFileAsTextInputFormat.class);

        SequenceFileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    public static class SFMapper extends Mapper<Text, Text,Text, Text> {

        public void map(Text key, Text value, Context context)

                throws IOException, InterruptedException {

            context.write(key, value);

        }

    }

    //reduce

    public static class SFReducer extends Reducer<Text, Text,Text,Text>{

        @Override

        protected void reduce(Text key, Iterable<Text> v2s,Context context)

                throws IOException, InterruptedException {

            for(Text text : v2s){

                context.write(key, text);

            }

        }

    }

}

最后还有一种sequencefileAsBinaryInputFormat 类，它将SequenceFile中的key和value都以原始二进制的形式封装在byteswritable对象中传给map，如何对二进制数据进行解释是map函数编写者的工作。

MR案例：输出/输入SequenceFile的更多相关文章

MR案例：倒排索引 && MultipleInputs
本案例采用 MultipleInputs类实现多路径输入的倒排索引.解读:MR多路径输入 package test0820; import java.io.IOException; import j ...
MR案例：Reduce-Join
问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...
MR案例：小文件处理方案
HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...
MR案例：CombineFileInputFormat
CombineFileInputFormat是一个抽象类.Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat. 此案 ...
解读：MR多路径输入
对于在一个MR-Job中使用多路径作为输入文件,一般有三种方法: 1).多次调用,加载不同路径: import org.apache.hadoop.mapreduce.lib.input.FileIn ...
MR案例：定制InputFormat
数据输入格式 InputFormat类用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查).对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来.并转化为Map的输入键值 ...
【VB超简单入门】五、基本输出输入
之前讲了VB IDE的基本操作和概念,接下来要开始将VB语言的编程了. 程序最重要的部分是输出和输入,输入数据,经过计算机处理,再输出结果.本文将介绍两种最基本的输出输入方法,分别是Print.Msg ...
Java基础(5)- 输出输入
输出输入 public class Input { public static void main (String[] args){ try { /** * 打开文件流进行读取 */ Scanner ...

随机推荐

Bootstrap中关于input里file的样式更改
给input里file类型加button样式 1.在Bootstrap中input里的file类型样式很不美观,一个按钮加一段文字,还会随浏览器的不同呈现不同的样式,所以开发的时候可以将file的样式 ...
Spring--简记
Spring通过一个配置文件描述Bean及Bean之间的依赖关系,利用Java语言的反射功能实例化Bean并建立Bean之间的依赖关系. Spring的IoC(控制反转)容器提供了Bean实例缓存.生 ...
Java+selenium+Fitnesse
刚开始接触selenium是进公司后,老大给我们培训了一下UI自动化(其实也不叫培训啦,就是让我们知道有这么个东西吧,我这么说,老大看到得打人了,哈哈).要进行自动化测试,当然就得搭建一个自动化测试框 ...
【转】虚拟机下CentOS7开启SSH连接
在虚拟机(Vmware Workstation)下,安装了CentOS7,现在想通过SSH工具连接虚拟机中的CentOS7 1. 首先,要确保CentOS7安装了 openssh-server,在终 ...
vscode编辑器配置C语言编译运行环境
1.安装C/C++插件 2.安装编译环境,这里选择MinGW(http://mingw.org/ ) 选择一个安装目录,如:E:\workspace\MinGW mingw32-gcc开头的(包括了m ...
d3.js:数据可视化利器之交互行为：响应DOM事件
selection.on:事件监听操作符 on()操作符可以添加或移除选择集中每个 DOM元素的事件监听函数: selection.on(type[,listener[,capture]]) 参数ty ...
requests+BeautifulSoup详解
简介 Python标准库中提供了:urllib.urllib2.httplib等模块以供Http请求,但是,它的 API 太渣了.它是为另一个时代.另一个互联网所创建的.它需要巨量的工作,甚至包括各种 ...
【我的Android进阶之旅】 RxJava 理解Backpressure并解决异常 rx.exceptions.MissingBackpressureException
今天测试人员在测试应用APP的时候应用crash了,查看了下crash log如下所示: java.lang.IllegalStateException: Exception thrown on Sc ...
JSON.parse和JSON.stringify
var json_arr = []; //parse用于从一个字符串中解析出json对象;stringify()用于从一个对象解析出字符串 ...
java.util.Calendar
package day14; import com.sun.scenario.effect.impl.sw.sse.SSEBlend_SRC_OUTPeer; import java.util.Cal ...

MR案例：输出/输入SequenceFile

MR案例：输出/输入SequenceFile的更多相关文章

随机推荐

热门专题