Hadoop自定义分组Group

matadata：

hadoop  a

spark   a

hive    a

hbase   a

tachyon a

storm   a

redis   a

自定义分组

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class MyGroup {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		if(otherArgs.length!=2){

			System.err.println("Usage databaseV1 <inputpath> <outputpath>");

		}

		Job job = Job.getInstance(conf, MyGroup.class.getSimpleName() + "1");

		job.setJarByClass(MyGroup.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.setMapperClass(MyMapper1.class);

		job.setGroupingComparatorClass(MyGroupComparator.class);

		job.setReducerClass(MyReducer1.class);

		job.setInputFormatClass(TextInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

		job.waitForCompletion(true);

	}

	public static class MyMapper1 extends Mapper<LongWritable, Text, Text, Text>{

		@Override

		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)

				throws IOException, InterruptedException {

			String[] spl=value.toString().split("\t");

			context.write(new Text(spl[0].trim()), new Text(spl[1].trim()));

		}

	}

	public static class MyReducer1 extends Reducer<Text, Text, Text, Text>{

		@Override

		protected void reduce(Text k2, Iterable<Text> v2s, Reducer<Text, Text, Text, Text>.Context context)

				throws IOException, InterruptedException {

			Long count=0L;

			for (@SuppressWarnings("unused") Text v2 : v2s) {

				count++;

				context.write(new Text("in--"+k2), new Text(count.toString()));

			}

			context.write(new Text("out--"+k2), new Text(count.toString()));

		}

	}

	public static class MyGroupComparator extends WritableComparator{

		public MyGroupComparator(){

			super(Text.class,true);

		}

		@SuppressWarnings("rawtypes")

		public int compare(WritableComparable a, WritableComparable b) {

			Text p1 = (Text) a;

			Text p2 = (Text) b;

			p1.compareTo(p2);

			return  0;

		  }

	}

}

结果

in--hadoop      1

in--hbase       2

in--hive        3

in--redis       4

in--spark       5

in--storm       6

in--tachyon     7

out--tachyon    7

然后看下默认分组

public static class MyGroupComparator extends WritableComparator{

		public MyGroupComparator(){

			super(Text.class,true);

		}

		@SuppressWarnings("rawtypes")

		public int compare(WritableComparable a, WritableComparable b) {

			Text p1 = (Text) a;

			Text p2 = (Text) b;

			return p1.compareTo(p2);

		  }

	}

结果

in--hadoop      1

out--hadoop     1

in--hbase       1

out--hbase      1

in--hive        1

out--hive       1

in--redis       1

out--redis      1

in--spark       1

out--spark      1

in--storm       1

out--storm      1

in--tachyon     1

out--tachyon    1

通过对比，自定义分组就很容易理解了

Hadoop自定义分组Group的更多相关文章

2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
关于MapReduce中自定义分组类（三）
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
Table.Group分组…Group（Power Query 之 M 语言）
数据源: 10列55行数据,其中包括含有重复项的"部门"列和可求和的"金额"列. 目标: 按"部门"列进行分组,显示各部门金额小计. 操作过 ...
Oracle 表分组 group by和模糊查询like
分组group by写法 select 字段名 from 表名 group by 字段名查询这个字段名里的种类分组后可以加聚合函数select 字段名,聚合函数 from 表名 group by 字 ...
大数据量场景下storm自定义分组与Hbase预分区完美结合大幅度节省内存空间
前言:在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗.大量的预分 ...
storm自定义分组与Hbase预分区结合节省内存消耗
Hbas预分区在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗. ...
MySQL数据分组Group By 和 Having
现有以下的学生信息表: 若果现在想计算每个班的平均年龄,使用where的操作如下: SELECT Cno AS 班级, AVG(Sage) AS 平均年龄 FROM stu ; 这样的话,有多少个班就 ...

随机推荐

介绍开源的.net通信框架NetworkComms框架源码分析（十八） ConnectionListenerBase
原文网址: http://www.cnblogs.com/csdev Networkcomms 是一款C# 语言编写的TCP/UDP通信框架作者是英国人以前是收费的目前作者已经开源许可是 ...
iOS阶段学习第28天笔记(UIView的介绍)
iOS学习(UI)知识点整理一.关于UIVIew 的介绍 1)概念:UIView 是用于装载并展示各类控件的大容器,是iOS中所有UI控件的基类 2)UIView 初始化实例代码 UIView * ...
MSSQL N张表关联查询
declare @newTime varchar(50); declare @lasetTime varchar(50); set @newTime= getdate(); set @lasetTim ...
【Effective Java】6、使用复合优先于使用继承
这个,不管是什么书都会这样说,因为常常我们并不需要继承,而只是想把类进行一定的扩展,而我们想扩展的属性或方法对应的类都有,这个时候如果两者是is a的关系,这种关系是确实存在的,那么就可以使用继承,不 ...
jvm三的三种类加载器
JVM有三种类加载器:bootstrap负责加载系统类,extclassloader负责加载扩展类,appclassloader负责加载应用类.他们主要是分工不一样,各自负责不同的区域,另外也是为了实 ...
Fiddler (四) 实现手机的抓包
Fiddler是我最喜爱的工具,几乎每天都用, 我已经用了8年了. 至今我也只学会其中大概50%的功能. Fiddler绝对称得上是"神器", 任何一个搞IT的人都得着的. 小 ...
初识Hibernate 缓存
生活就像一杯咖啡,让你我慢慢的品尝,品尝它的苦涩和甘甜...... 一.什么是Hibernate缓存. 解析:白话来说就是缓存数据的容器官方标准点缓存:是计算机领域的概念,它介于应用程序和永久性数据 ...
Spring MVC处理异常的4种方式
http://blog.csdn.net/ufo2910628/article/details/40399539 http://my.oschina.net/CandyDesire/blog/3333 ...
Glide.js：响应式 & 触摸友好的 jQuery 滑块插件
Glide.js 是一款响应式和对触摸友好的 jQuery 滑块.基于 CSS3 转换实现,并在低版本浏览器降级处理.Glide.js 简单,重量轻,快速,适用于智能手机,平板电脑和台式机.它支持 s ...
angularjs——插值字符串
一.何为插值字符串? 其实插值字符串的意思就是:拥有字符插值标记的字符串.如: hello,{{ to }}....字符插值标记:相当于我们平时在字符串替换中使用到的占位符.上面的例子中的{{to}} ...

Hadoop自定义分组Group

Hadoop自定义分组Group的更多相关文章

随机推荐

热门专题