hadoop编程小技巧（1）---map端聚合

測试hadoop版本号：2.4

Map端聚合的应用场景：当我们仅仅关心全部数据中的部分数据时，而且数据能够放入内存中。

使用的优点：能够大大减小网络数据的传输量，提高效率；

一般编程思路：在Mapper的map函数中读入全部数据，然后加入到一个List（队列）中。然后在cleanup函数中对list进行处理。输出我们关系的少量数据。

实例：

在map函数中使用空格分隔每行数据。然后把每一个单词加入到一个堆栈中，在cleanup函数中输出堆栈中单词次数比較多的单词以及次数。

package fz.inmap.aggregation;

import java.io.IOException;

import java.util.ArrayList;

import java.util.PriorityQueue;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

public class InMapArrgegationDriver extends Configured implements Tool{

	public static Logger log = LoggerFactory.getLogger(InMapArrgegationDriver.class);

	/**

	 * @throws Exception

	 *

	 */

	public static void main(String[] args) throws Exception {

		ToolRunner.run(new Configuration(), new InMapArrgegationDriver(),args);

	}

	@Override

	public int run(String[] arg0) throws Exception {

		if(arg0.length!=3){

			System.err.println("Usage:\nfz.inmap.aggregation.InMapArrgegationDriver <in> <out> <maxNum>");

			return -1;

		}

		Configuration conf = getConf();

//		System.out.println(conf.get("fs.defaultFS"));

		Path in = new Path(arg0[0]);

		Path out= new Path(arg0[1]);

		out.getFileSystem(conf).delete(out, true);

		conf.set("maxResult", arg0[2]);

		Job job = Job.getInstance(conf,"in map arrgegation job");

		job.setJarByClass(getClass());

		job.setInputFormatClass(TextInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		job.setMapperClass(InMapMapper.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(IntWritable.class);

//		job.setOutputKeyClass(LongWritable.class);

//		job.setOutputValueClass(VectorWritable.class);

		job.setNumReduceTasks(0);

//		System.out.println(job.getConfiguration().get("mapreduce.job.reduces"));

//		System.out.println(conf.get("mapreduce.job.reduces"));

		FileInputFormat.setInputPaths(job, in);

		FileOutputFormat.setOutputPath(job, out);

		return job.waitForCompletion(true)?0:-1;

	}

	protected static class InMapMapper extends Mapper<LongWritable,Text,Text,IntWritable>{

		private ArrayList<Word> words = new ArrayList<Word>();

		private PriorityQueue<Word> queue;

		private int maxResult;

		protected void setup(Context cxt){

			maxResult = cxt.getConfiguration().getInt("maxResult", 10);

		}

		protected void map(LongWritable key, Text value,Context cxt){

			String  [] line = value.toString().split(" "); // use blank to split

			for(String word:line){

				Word curr = new Word(word,1);

				if(words.contains(curr)){

					// increase the exists word's frequency

					for(Word w:words){

						if(w.equals(curr)){

							w.frequency++;

							break;

						}

					}

				}else{

					words.add(curr);

				}

			}

		}

		protected void cleanup(Context cxt) throws InterruptedException,IOException{

			Text outputKey = new Text();

			IntWritable outputValue = new IntWritable();

			queue = new PriorityQueue<Word>(words.size());

			queue.addAll(words);

			for(int i=0;i< maxResult;i++){

				Word tail = queue.poll();

				if(tail!=null){

					outputKey.set(tail.value);

					outputValue.set(tail.frequency);

					log.info("key is {},value is {}", outputKey,outputValue);

					cxt.write(outputKey, outputValue);

				}

			}

		}

	}

}

使用到的Word类

package fz.inmap.aggregation;

public class Word implements Comparable<Word>{

	public String value;

	public int frequency;

	public Word(String value,int frequency){

		this.value=value;

		this.frequency=frequency;

	}

	@Override

	public int compareTo(Word o) {

		return o.frequency-this.frequency;

	}

	@Override

	public boolean equals(Object obj){

		if(obj instanceof Word){

			return value.equalsIgnoreCase(((Word)obj).value);

		}else{

			return false;

		}

	}

}

查看输出结果，能够看日志（因为在程序中输出了日志，所以在日志中也能够查看到）；

或者查看输出结果：

总结：使用map端聚合，尽管能够大大减小网络传输数据量。提高效率，可是我们在应用的时候还是须要考虑实际的应用环境。比方。假设使用上面的算法来计算最大单词频率的前10个，然后还是使用上面的代码。就会有问题。

每一个mapper会处理并输出自己的单词词频最大的10个单词，并没有考虑到全部数据。这样在reducer端整合的时候就会可能会忽略部分数据，造成终于结果的错误。

分享，成长，快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

hadoop编程小技巧（1）---map端聚合的更多相关文章

hadoop编程小技巧（5）---自定义输入文件格式类InputFormat
Hadoop代码测试环境:Hadoop2.4 应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类. Hadoop内置的输入文件格式类有: 1)FileInputForma ...
hadoop编程小技巧（5）---自己定义输入文件格式类InputFormat
Hadoop代码測试环境:Hadoop2.4 应用:在对数据须要进行一定条件的过滤和简单处理的时候能够使用自己定义输入文件格式类. Hadoop内置的输入文件格式类有: 1)FileInputForm ...
hadoop编程小技巧（7）---自己定义输出文件格式以及输出到不同文件夹
代码測试环境:Hadoop2.4 应用场景:当须要定制输出数据格式时能够採用此技巧,包含定制输出数据的展现形式.输出路径.输出文件名称称等. Hadoop内置的输出文件格式有: 1)FileOutpu ...
Java编程小技巧(1)——方法传回两个对象
原文地址:Java编程小技巧(1)--方法传回两个对象 | Stars-One的杂货小窝题目是个伪命题,由Java语法我们都知道,方法要么返回一个对象,要么就不返回当有这样的情况,我们需要返回两个 ...
Shellcode编程小技巧
工作需要,需要注入其他程序监控一些东西,检测到的数据通过WM_COPY 消息发送给显示窗体.(大体是这样的还没定稿) ##1 选择一个框架 ## tombkeeper/Shellcode_Templa ...
学会这些 pycharm 编程小技巧，编程效率提升 10 倍
PyCharm 是一款非常强大的编写 python 代码的工具.掌握一些小技巧能成倍的提升写代码的效率,本篇介绍几个经常使用的小技巧. 一.分屏展示当你想同时看到多个文件的时候: 1.右击标签页: ...
android 编程小技巧（持续中）
first: Intent跳转一般存用于Activity类,可是若要在非activity类里跳转的话,解决方法是在startActivity(intent)前加mContext即上下文,终于为 ...
编程小技巧之 Linux 文本处理命令
合格的程序员都善于使用工具,正所谓君子性非异也,善假于物也.合理的利用 Linux 的命令行工具,可以提高我们的工作效率. 本文简单的介绍三个能使用 Linux 文本处理命令的场景,给大家开阔一下思路 ...
WTL编程小技巧汇编
1.设置窗体生成大小并中央显示窗口 2.设置窗体最大/小尺寸 3.动态设置窗体标题 4.设置对话框的字体和背景颜色 5.设置窗体控件默认字体以下技巧可应用于SDI和MDI程序: 1.设置窗体生成大小 ...

随机推荐

Spring Cloud（1）相关概念
单点系统架构传统项目架构传统项目分为三层架构,将业务逻辑层.数据库访问层.控制层放入在一个项目中. 优点:适合于个人或者小团队开发,不适合大团队开发. 分布式项目架构根据业务需求进行拆分成N个子 ...
vue父组件更新，子组件也更新的方法
1.父组件使用 Math.ramdom() 2.子组件获取然后监听这个ramdom变化,处理子组件的更新
Eclipse设置类和方法的注释模板
一.打开设置模板的窗口:Window->Preference->Java->Code Style->Code Template展开Comments,最常用的就是类和方法的注释, ...
最大流 && 最小费用最大流模板
模板从这里搬运,链接博客还有很多网络流题集题解参考. 最大流模板 ( 可处理重边 ) ; const int INF = 0x3f3f3f3f; struct Edge { int from ...
给网页头部标题加logo
现在在写公司的官网,需要在网页的头部加logo,没有加的时候是这样的那么,现在只要一步,就可以了,加上一行代码 <link rel="icon" href="图标 ...
PHP快速教程
1.本文主要针对有C语言(或其他编程语言)基础的人快速学习PHP的,所以不会对一些基础知识作过多解释,比如“=”是赋值不是等于. 2.本文适合已学过一门编程语言,想要快速入门PHP的人. 3.基本上看 ...
C++ 对象间通信框架 V2.0 ××××××× 之（二）
公共头文件:ss_type_def.h ================================================================================ ...
Java中高级面试题（1）
List和Set比较,各自的子类比较对比一:Arraylist与LinkedList的比较 1.ArrayList是实现了基于动态数组的数据结构,因为地址连续,一旦数据存储好了,查询操作效率会比较高 ...
java导入ldif文件
网上导入ldif文件的方式都是基于命令,或者相应工具如LDAP Browser \Editor v2.8.2. 但用java去实现这样的功能好像网上很少,于是我参照相应的开源代码并整理了一下,亲自测试 ...
es之关于consistency（数据一致性问题）
Es集群内部是有一个约定是用来约束我们的写操作的,就是“一致性”: 也就是说:新建.索引.删除这些操作都是写操作,他们都有一个大前提: 当前的分片副本处于活跃状态的数量 >= int( (pri ...

hadoop编程小技巧（1）---map端聚合

hadoop编程小技巧（1）---map端聚合的更多相关文章

随机推荐

热门专题