mapreduce的一个模版

import java.io.IOException;

import java.text.DateFormat;

import java.text.SimpleDateFormat;

import java.util.Date;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.*;

import org.apache.hadoop.mapreduce.*;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * map就是把key先分出来。系统会自己主动把同样key的value放到一个iterator里面，reduce就是去处理key和已经归并好的iterator

 */

public class Template extends Configured implements Tool {	

	/**

	 * 计数器

	 * 用于计数各种异常数据

	 */

	enum Counter

	{

		LINESKIP,	//出错的行

	}

	/**

	 * MAP任务

	 */

	public static class Map extends Mapper<LongWritable, Text, Text, Text> //输入的key（详细是什么由job.setInputFormatClass决定）,输入的value,输出的key,输出的value

	{

		public void map ( LongWritable key, Text value, Context context ) throws IOException, InterruptedException

		{

			String line = value.toString();				//读取源数据

			try

			{

				//数据处理

				String [] lineSplit = line.split(" ");

				String anum = lineSplit[0];

				String bnum = lineSplit[1];

				context.write( new Text(bnum), new Text(anum) );	//输出

			}

			catch ( java.lang.ArrayIndexOutOfBoundsException e )

			{

				context.getCounter(Counter.LINESKIP).increment(1);	//出错令计数器+1

				return;

			}

		}

	}

	/**

	 * REDUCE任务

	 */

	public static class Reduce extends Reducer<Text, Text, Text, Text>

	{

		public void reduce ( Text key, Iterable<Text> values, Context context ) throws IOException, InterruptedException

		{

			String valueString;

			String out = "";

			for ( Text value : values )

			{

				valueString = value.toString();

				out += valueString + "|";

			}

			context.write( key, new Text(out) );

		}

	}

	@Override

	public int run(String[] args) throws Exception

	{

		Configuration conf = getConf();

		Job job = new Job(conf, "Test_2");								//任务名

		job.setJarByClass(Test_2.class);								//指定Class

		FileInputFormat.addInputPath( job, new Path(args[0]) );			//输入路径

		FileOutputFormat.setOutputPath( job, new Path(args[1]) );		//输出路径

		job.setMapperClass( Map.class );								//调用上面Map类作为Map任务代码

		job.setReducerClass ( Reduce.class );							//调用上面Reduce类作为Reduce任务代码,没有这行就调用默认的reduce

		job.setOutputFormatClass( TextOutputFormat.class );

		job.setOutputKeyClass( Text.class );							//指定输出的KEY的格式

		job.setOutputValueClass( Text.class );							//指定输出的VALUE的格式

		job.waitForCompletion(true);

		//输出任务完毕情况

		System.out.println( "任务名称：" + job.getJobName() );

		System.out.println( "任务成功：" + ( job.isSuccessful()?

"是":"否" ) );

		System.out.println( "输入行数：" + job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter", "MAP_INPUT_RECORDS").getValue() );

		System.out.println( "输出行数：" + job.getCounters().findCounter("org.apache.hadoop.mapred.Task$Counter", "MAP_OUTPUT_RECORDS").getValue() );

		System.out.println( "跳过的行：" + job.getCounters().findCounter(Counter.LINESKIP).getValue() );

		return job.isSuccessful() ? 0 : 1;

	}

	/**

	 * 设置系统说明

	 * 设置MapReduce任务

	 */

	public static void main(String[] args) throws Exception

	{

		//推断參数个数是否正确

		//假设无參数执行则显示以作程序说明

		if ( args.length != 2 )

		{

			System.err.println("");

			System.err.println("Usage: Test_2 < input path > < output path > ");

			System.err.println("Example: hadoop jar ~/Test_2.jar hdfs://localhost:9000/home/james/Test_2 hdfs://localhost:9000/home/james/output");

			System.err.println("Counter:");

			System.err.println("\t"+"LINESKIP"+"\t"+"Lines which are too short");

			System.exit(-1);

		}

		//记录開始时间

		DateFormat formatter = new SimpleDateFormat( "yyyy-MM-dd HH:mm:ss" );

		Date start = new Date();

		//执行任务

		int res = ToolRunner.run(new Configuration(), new Test_2(), args);

		//输出任务耗时

		Date end = new Date();

		float time =  (float) (( end.getTime() - start.getTime() ) / 60000.0) ;

		System.out.println( "任务開始：" + formatter.format(start) );

		System.out.println( "任务结束：" + formatter.format(end) );

		System.out.println( "任务耗时：" + String.valueOf( time ) + " 分钟" ); 

        System.exit(res);

	}

}

mapreduce的一个模版的更多相关文章

mapreduce中一个map多个输入路径
package duogemap; import java.io.IOException; import java.util.ArrayList; import java.util.List; imp ...
导出Excel（导出一个模版）
有时,客户需要一个标准的模板来填东西,然后在导入这时可以弄好excel模板,供导出 /** * 导出excel模板文件 * @param request * @param response * @r ...
MapReduce: 一个巨大的倒退
前言 databasecolumn 的数据库大牛们(其中包括PostgreSQL的最初伯克利领导:Michael Stonebraker)最近写了一篇评论当前如日中天的MapReduce 技术的文章, ...
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
MapReduce剖析笔记之八: Map输出数据的处理类MapOutputBuffer分析
在上一节我们分析了Child子进程启动,处理Map.Reduce任务的主要过程,但对于一些细节没有分析,这一节主要对MapOutputBuffer这个关键类进行分析. MapOutputBuffer顾 ...
04 MapReduce原理介绍
大数据实战(上) # MapReduce原理介绍大纲: * Mapreduce介绍 * MapReduce2运行原理 * shuffle及排序定义 * Mapreduce 最早是由googl ...
Linux上搭建Hadoop2.6.3集群以及WIN7通过Eclipse开发MapReduce的demo
近期为了分析国内航空旅游业常见安全漏洞,想到了用大数据来分析,其实数据也不大,只是生产项目没有使用Hadoop,因此这里实际使用一次. 先看一下通过hadoop分析后的结果吧,最终通过hadoop分析 ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
MapReduce剖析笔记之二：Job提交的过程
上一节以WordCount分析了MapReduce的基本执行流程,但并没有从框架上进行分析,这一部分工作在后续慢慢补充.这一节,先剖析一下作业提交过程. 在分析之前,我们先进行一下粗略的思考,如果要我 ...

随机推荐

你值得关注的几种常见的js设计模式
前言潜水了一段时间,今天空闲时间复盘下之前的知识点,聊聊 js 几种常见的设计模式. 掌握 JavaScript 中常见的一些设计模式,对我们书写规范性代码,可维护性代码有很大的帮助. ps:最近在 ...
CoreData: 如何预载/导入已有的数据
原文地址:CoreData: 如何预载/导入已有的数据作者:出其东门在系列教程一中,我们为对象建立了可视化数据模型,运行了快速肮脏测试并勾在一个表视图(table view)中来显示.而在这个教程, ...
从C的声明符到Objective-C的Blocks语法
原文链接:http://nilsou.com/blog/2013/08/21/objective-c-blocks-syntax/ 在这个post中,我先以C简单和内置复杂的声明开始,直到我们开始接触 ...
【mob】Android短信验证+源码
在很多的应用当中,都涉及到了短信验证的功能,比如在注册或者找回密码的时候,那么我们如何通过第三方的平台来完成这个功能呢? 本面博文就实现短信验证,来做一个小的栗子. 第一步-下载开发包第二步-将SD ...
【开发总结】—— BABYLON 项目开发必备系列
前言:在公司主要使用Babylon.js作为前端引擎,我自己在开发中总结到基本上每一个新项目都会需要这些基本设置. 一.ios兼容:解决镜面反射如果不加offline,材质中有镜面反射,苹果手机 ...
TP5结合聚合数据API查询天气
php根据城市查询天气情况看到有人分享java的查询全国天气情况的代码,于是我想分享一个php版本的查询天气接口.免费查询天气的接口有很多,比如百度的apistore的天气api接口,我本来想采用这个 ...
谷歌浏览器插件-html页面js事件查看器
谷歌浏览器插件-html页面js事件查看器 1.下载下载地址:http://files.cnblogs.com/files/graceup/VisualEvent.zip 解压得到文件:Visual ...
jenkins构建一个go项目
Jenkins安装最低配置: 不少于256M内存,不低于1G磁盘,jdk版本>=8 安装jdk1.8 yum install -y java-1.8.0-openjdk wget -O / ...
Ubuntu14.04 x86_64 install Xen
Recommended reference: https://help.ubuntu.com/community/Xen Step One: Install Ubuntu14.04 on your c ...
Linux安装indicator-china-weather
https://launchpad.net/indicator-china-weather sudo apt-get update sudo apt-get install python-appind ...

mapreduce的一个模版

mapreduce的一个模版的更多相关文章

随机推荐

热门专题