MR中使用sequnceFIle输入文件

转换原始数据为块压缩的SequenceFIle

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.SequenceFile.CompressionType;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.GzipCodec;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.hadoop.compression.lzo.LzoCodec;

public class ToSeqFile extends Configured implements Tool {

    @Override

    public int run(String[] arg0) throws Exception {

        Job job = new Job();

        job.setJarByClass(getClass());

        Configuration conf=getConf();

        FileSystem fs = FileSystem.get(conf);

        FileInputFormat.setInputPaths(job, "/home/hadoop/tmp/tmplzo.txt");

        Path outDir=new Path("/home/hadoop/tmp/tmplzo.out");

        fs.delete(outDir,true);

        FileOutputFormat.setOutputPath(job, outDir);

        //job.setMapperClass(IndentityMapper);

        job.setNumReduceTasks(0);

        job.setOutputKeyClass(LongWritable.class);

        job.setOutputValueClass(Text.class);

        //设置OutputFormat为SequenceFileOutputFormat

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        //允许压缩

         SequenceFileOutputFormat.setCompressOutput(job, true);

         //压缩算法为gzip

         SequenceFileOutputFormat.setOutputCompressorClass(job, LzoCodec.class);

        //压缩模式为BLOCK

         SequenceFileOutputFormat.setOutputCompressionType(job, CompressionType.BLOCK);

        return job.waitForCompletion(true)?0:1;

    }

    public static void main(String[] args) throws Exception {

        int res = ToolRunner.run(new Configuration(), new ToSeqFile(), args);

        System.exit(res);

    }

}

MR处理压缩后的sequenceFile

import org.apache.hadoop.io.Text;

import java.io.File;

import java.io.IOException;

import java.net.URI;

import java.util.Iterator;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.*;

import org.apache.hadoop.mapreduce.ContextFactory;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MapFileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Progressable;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

//import org.apache.hadoop.mapred.DeprecatedLzoTextInputFormat;

import com.hadoop.compression.lzo.LzoCodec;

import com.hadoop.mapreduce.LzoTextInputFormat;

public class compress extends Configured implements Tool {

	private static final Log log = LogFactory.getLog(compress.class);

	private static class ProvinceMapper extends

			Mapper<Object, Text, Text, Text> {

		@Override

		protected void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			//System.out.println(value);

			// InputSplit inputSplit = context.getInputSplit();

			//String fileName = ((FileSplit) inputSplit).getPath().toString();

			//System.out.println(fileName);

			context.write(value, value);

		}

	}

	private static class ProvinceReducer extends

			Reducer<Text, Text, Text, Text> {

		@Override

		protected void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			for (Text va : values) {

				// System.out.println("reduce " + key);

				context.write(key, key);

			}

		}

	}

	public static void main(String[] args) throws Exception {

		ToolRunner.run(new Configuration(), new compress(), args);

	}

	public static final String REDUCES_PER_HOST = "mapreduce.sort.reducesperhost";

	@Override

	public int run(String[] args) throws Exception {

		log.info("我的服务查询开始.....................................");

		long beg = System.currentTimeMillis();

		int result = 0;

		Configuration conf = new Configuration();

		conf.set(

				"io.compression.codecs",

				"org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec");

		conf.set("io.compression.codec.lzo.class",

				"com.hadoop.compression.lzo.LzoCodec");

		conf.setBoolean("mapreduce.map.output.compress", true);

	    conf.setClass("mapreduce.map.output.compression.codec", SnappyCodec.class, CompressionCodec.class);

	   // conf.setBoolean("mapreduce.output.fileoutputformat.compress", true); // 是否压缩输出

	    conf.setClass("mapreduce.output.fileoutputformat.compress.codec", SnappyCodec.class, CompressionCodec.class);

		String[] argArray = new GenericOptionsParser(conf, args)

				.getRemainingArgs();

		if (argArray.length != 2) {

			System.err.println("Usage: compress <in> <out>");

			System.exit(1);

		}

		// Hadoop总共有5个Job.java

		// /hadoop-2.0.0-cdh4.5.0/src/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapreduce/Job.java

		Job job = new Job(conf, "compress");

		job.setJarByClass(compress.class);

		job.setMapperClass(ProvinceMapper.class);

		job.setReducerClass(ProvinceReducer.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		 //job.setInputFormatClass(LzoTextInputFormat.class); // TextInputFormat

		// MyFileinput

		// 使用lzo索引文件作为输入文件

		// job.setInputFormatClass(LzoTextInputFormat.class);

		job.setInputFormatClass(SequenceFileInputFormat.class);

		// SequenceFileOutputFormat.set(job, LzoCodec.class);

		// 测试块大小

		// FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);

		// FileInputFormat.setMinInputSplitSize(job, 301349250);

		// FileInputFormat.setMaxInputSplitSize(job, 10000);

		// 推测执行的开关 另外还有针对map和reduce的对应开关

		// job.setSpeculativeExecution(false);

		FileInputFormat.addInputPath(job, new Path(argArray[0]));

		FileOutputFormat.setOutputPath(job, new Path(argArray[1]));

		String uri = argArray[1];

		Path path = new Path(uri);

		FileSystem fs = FileSystem.get(URI.create(uri), conf);

		if (fs.exists(path)) {

			fs.delete(path);

		}

		result = job.waitForCompletion(true) ? 0 : 1;

//		try {

//			result = job.waitForCompletion(true) ? 0 : 1;

//		} catch (ClassNotFoundException | InterruptedException e) {

//			e.printStackTrace();

//		}

		long end = (System.currentTimeMillis() -beg) ;

        System.out.println("耗时:" + end);

		return result;

	}

}

测试结果

文件大小 544M(未使用任何压缩)
耗时:73805

使用 seqencefile(block使用lzo压缩, 中间结果使用snappy压缩)

44207s

MR中使用sequnceFIle输入文件的更多相关文章

MR中的combiner和partitioner
1.combiner combiner是MR编程模型中的一个组件: 有些任务中map可能会产生大量的本地输出,combiner的作用就是在map端对输出先做一次合并,以减少map和reduce节点之间 ...
总结的MR中连接操作
1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom 2 map side join 2.1 利用内存和分布式缓存,也有oom风险 2 ...
MR中简单实现自定义的输入输出格式
import java.io.DataOutput; import java.io.IOException; import java.util.HashMap; import java.util.Ma ...
MR操作
MR操作————Map.Partitioner.Shuffle.Combiners.Reduce 1.Map步骤 1.1 读取输入文件,解析成k-v对,其中每个k-v对调用一次map函数 1.2 写自 ...
【转】Hive配置文件中配置项的含义详解（收藏版）
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1 ...
MapReduce中的Join
一. MR中的join的两种方式: 1.reduce side join(面试题) reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文 ...
Hive配置文件中配置项的含义详解（收藏版）
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读: 1.hive输出格式的配置项是哪个? 2.hive被各种语言调用如何配置? 3.hive ...
Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数.Executor数.core数目的关系. 输入可能以多个文件的形式存储在H ...
Spark中Task，Partition，RDD、节点数、Executor数、core数目（线程池）、mem数
Spark中Task,Partition,RDD.节点数.Executor数.core数目的关系和Application,Driver,Job,Task,Stage理解 from:https://bl ...

随机推荐

POJ 2528——Mayor's posters——————【线段树区间替换、找存在的不同区间】
Mayor's posters Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Sub ...
JQuery选择器——《锋利的JQuery》
刚学CSS的时候我们已经接触了选择器,其实就是按照一定的规则选择出来我们想要获取到的元素.在这里,既然选择了用jQuery选择器,首先来谈谈JQuery选择器的优势: 1.简洁的写法:$()函数在很多 ...
Nginx下载安装
系统环境:win7 nginx:1.11.4 1.下载Nginx 下载地址:http://nginx.org/en/download.html 2.将压缩包解压到相应位置 3.启动nginx服务,ng ...
2、Angular2 Directive
1.Attribute directives 2.directive的理解
C# 在窗体的子线程中创建新窗体
在子线程中如果简单的调用新窗体的话,新出来的窗体会直接一闪而过.没有停留.效果很差具体解决方法如下: 在母窗体中建立委托 public delegate void setShowChartForm ...
Android 仿iPhone的日期时间选择器
可选只选择日期,也可以同时选择时间只选择日期的情况同时选择日期和时间的情况关键代码: findViewById(R.id.selectDateButton).setOnClickListener ...
jar命令使用介绍
http://docs.oracle.com/javase/7/docs/technotes/tools/solaris/jar.html Skip to Content Oracle Technol ...
Siebel Tools配置
默认安装的Siebel+Tools,Tools登陆时有3个选项:Local.Sample.Server,具体涵义如下: Local:指本地数据库.按照Siebel开发建议,开发人员需要从Siebel ...
Excel VBA 复制
将 Sheet1 复制到 Sheet3 后面时,实现方法如下: Worksheets("Sheet1").Copy After:=Worksheets("Sheet3&q ...
【java开发系列】—— 嵌套类与内部类
嵌套类与内部类在java中使用的很广泛,为了避免难以理解,这里用了几个小例子,说明它的用法. 嵌套类与内部类的结构如下图静态嵌套类静态嵌套类,是一种在类之外声明的嵌套类,由于是静态的,所以不经过初 ...

MR中使用sequnceFIle输入文件

MR中使用sequnceFIle输入文件的更多相关文章

随机推荐

热门专题