hadoop编程：分析CSDN注冊邮箱分布情况

https://blog.csdn.net/jdh99/article/details/37565825

hadoop编程：分析CSDN注冊邮箱分布情况

本文博客链接:http://blog.csdn.net/jdh99,作者:jdh,转载请注明.

环境：

主机:Ubuntu10.04

hadoop版本号:1.2.1

开发工具:eclipse4.4.0

说明:

要求：原始数据共6428632条。分析不同邮箱的注冊情况，并按使用人数从大到小排序。

分析：hadoop自带一个排序，是按key值来进行排序的。要按值（value）进行排序，须要二次排序。

步骤：

1.job1：统计不同注冊邮箱的使用人数，用默认的key值排序，保存在HDFS系统中

2.job2：对job1的输出进行二次排序，按值从大到小排序

结果输出:

使用人数在1W以上的邮箱共同拥有24个：

qq.com   1976196
163.com   1766927
126.com   807895
sina.com   351596
yahoo.com.cn   205491
hotmail.com   202948
gmail.com   186843
sohu.com   104736
yahoo.cn   87048
tom.com   72365
yeah.net   53295
21cn.com   50710
vip.qq.com   35119
139.com   29207
263.net   24779
sina.com.cn   19156
live.cn   18920
sina.cn   18601
yahoo.com   18454
foxmail.com   16432
163.net   15176
msn.com   14211
eyou.com   13372
yahoo.com.tw   10810

源码:

JOB1：统计不同注冊邮箱的人数

CsdnData.java

package com.bazhangkeji.hadoop;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class CsdnData

{

	public static void main(String[] args) throws Exception

	{

		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		if (otherArgs.length != 2)

		{

			System.err.println("Usage: csdndata <in> <out>");

			System.exit(2);

		}

		Job job = new Job(conf, "csdndata");

		job.setJarByClass(CsdnData.class);

		job.setMapperClass(MapData.class);

		job.setReducerClass(ReducerData.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

		System.exit(job.waitForCompletion(true) ? 0 : 1);

  	}

}

MapData.java

package com.bazhangkeji.hadoop;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Mapper.Context;

public class MapData extends Mapper<Object, Text, Text, IntWritable>

{

	IntWritable one = new IntWritable(1);

  	Text word = new Text();

  	public void map(Object key, Text value, Context context) throws IOException, InterruptedException

	{

  		StringBuffer str_in = new StringBuffer();

		StringBuffer str_out = new StringBuffer();

		int index = 0;

		//初始化字符串

		str_in.setLength(0);

		str_out.setLength(0);

		str_in.append(value.toString());

		//获得邮箱的起始位置

		index = str_in.toString().lastIndexOf('@');

		if (index != -1)

		{

			word.set(str_in.toString().substring(index + 1).trim().toLowerCase());

  			context.write(word, one);

		}

  	}

}

ReducerData.java

package com.bazhangkeji.hadoop;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Reducer.Context;

public class ReducerData extends Reducer<Text,IntWritable,Text,IntWritable>

{

	IntWritable result = new IntWritable();

  	public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException

	{

    	int sum = 0;

    	for (IntWritable val : values)

		{

      		sum += val.get();

    	}

    	result.set(sum);

    	context.write(key, result);

  	}

}

JOB2：对job1的输出进行二次排序。按值从大到小排序

SortSecond.java

package com.bazhangkeji.hadoop2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class SortSecond

{

	public static void main(String[] args) throws Exception

	{

		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		if (otherArgs.length != 2)

		{

			System.err.println("Usage: csdndata <in> <out>");

			System.exit(2);

		}

		Job job = new Job(conf, "sortsecond");

		job.setJarByClass(SortSecond.class);

		job.setMapperClass(MapSecond.class);

		job.setReducerClass(ReduceSecond.class); 

		job.setSortComparatorClass(SortMy.class); //设置自己定义二次排序策略

		job.setOutputKeyClass(KeyMy.class);

		job.setOutputValueClass(IntWritable.class);

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

		System.exit(job.waitForCompletion(true) ?

0 : 1);

  	}

}

MapSecond.java

package com.bazhangkeji.hadoop2;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Mapper.Context;

public class MapSecond extends Mapper<LongWritable, Text, KeyMy, IntWritable>

{

	IntWritable one = new IntWritable(1);

  	Text word = new Text();

  	KeyMy keymy = new KeyMy();

  	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException

	{

  		String str_in = value.toString();

  		int index = 0;

  		index = str_in.indexOf('\t');

  		if (value.toString().length() > 3 && index != -1)

  		{

	  		String str1 = str_in.substring(0, index);

	  		String str2 = str_in.substring(index + 1);

	  		if (str1.length() != 0 && str2.length() != 0)

	  		{

	  			one.set(Integer.parseInt(str2));

	  			word.set(str1);

				keymy.setFirstKey(word);

				keymy.setSecondKey(one);

	  			context.write(keymy, one);

	  		}

  		}

  	}

}

ReduceSecond.java

package com.bazhangkeji.hadoop2;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Reducer.Context;

public class ReduceSecond extends Reducer<KeyMy,IntWritable,Text,IntWritable>

{

	IntWritable result = new IntWritable();

  	public void reduce(KeyMy key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException

	{

    	context.write(key.getFirstKey(), key.getSecondKey());

  	}

}

KeyMy.java

package com.bazhangkeji.hadoop2;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.WritableComparable;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

/**

 * 自己定义组合键

 */

public class KeyMy implements WritableComparable<KeyMy>{

    private static final Logger logger = LoggerFactory.getLogger(KeyMy.class);

    private Text firstKey;

    private IntWritable secondKey;

    public KeyMy() {

        this.firstKey = new Text();

        this.secondKey = new IntWritable();

    }

    public Text getFirstKey() {

        return this.firstKey;

    }

    public void setFirstKey(Text firstKey) {

        this.firstKey = firstKey;

    }

    public IntWritable getSecondKey() {

        return this.secondKey;

    }

    public void setSecondKey(IntWritable secondKey) {

        this.secondKey = secondKey;

    }

    @Override

    public void readFields(DataInput dateInput) throws IOException {

        // TODO Auto-generated method stub

        this.firstKey.readFields(dateInput);

        this.secondKey.readFields(dateInput);

    }

    @Override

    public void write(DataOutput outPut) throws IOException {

        this.firstKey.write(outPut);

        this.secondKey.write(outPut);

    }

    /**

     * 自己定义比較策略

     * 注意：该比較策略用于 mapreduce的第一次默认排序，也就是发生在map阶段的sort小阶段，

     * 发生地点为环形缓冲区(能够通过io.sort.mb进行大小调整)

     */

    @Override

    public int compareTo(KeyMy KeyMy) {

        logger.info("-------KeyMy flag-------");

        return this.firstKey.compareTo(KeyMy.getFirstKey());

    }

}

SortMy.java

package com.bazhangkeji.hadoop2;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

/**

 * 自己定义二次排序策略

 */

public class SortMy extends WritableComparator {

    private static final Logger logger = LoggerFactory.getLogger(SortMy.class);

    public SortMy() {

        super(KeyMy.class,true);

    }

    @Override

    public int compare(WritableComparable KeyMyOne,

            WritableComparable KeyMyOther)

    {

        logger.info("---------enter SortMy flag---------");

        KeyMy c1 = (KeyMy) KeyMyOne;

        KeyMy c2 = (KeyMy) KeyMyOther;

        return c2.getSecondKey().get()-c1.getSecondKey().get();//0,负数,正数

    }

}

參考资料:

1.《hadoop权威指南》

2. http://zengzhaozheng.blog.51cto.com/8219051/1379271

hadoop编程：分析CSDN注冊邮箱分布情况的更多相关文章

《解读window核心编程》之注冊表
1 注冊表的作用及组织形式 Windows系统使用注冊表来存储系统和应用程序配置数据.非常多系统和应用程序重要的配置的信息都存储在注冊表中. 注冊表是一种以树型结构组织的数据库.树的每个节点称作键( ...
协议的注冊与维护——ndpi源代码分析
在前面的文章中,我们对ndpi中的example做了源代码分析.这一次我们将尽可能深入的了解ndpi内部的结构和运作.我们将带着以下三个目的(问题)去阅读ndpi的源代码. 1.ndpi内部是怎么样注 ...
YII用户注冊和用户登录（三）之模型中规则制定和分析
3 模型中规则制定和分析 YII模型主要分为两类,一个数据模型,处理和数据库相关的增删改查.继承CActiveRecord.还有一个是表单模型,继承CFormModel.不与数据库进行交互.操作与数据 ...
CLion注冊码算法逆向分析实录（纯研究）
声明 CLion程序版权为jetBrains全部.注冊码授权为jetBrains及其付费用户全部,本篇仅仅从兴趣出发,研究其注冊码生成算法. 不会释出不论什么完整的源码. 网上查了下.已有注冊机,所以 ...
从注冊流程分析怎样安全退出多个Activity 多种方式（附DEMO）
前言因为一个同学问到我怎样依照一个流程走好之后回到首页.我曾经看到过4个解决方式,后来发现有做个记录和总结的必要,就写了这篇博文. (之前看小强也写过一篇,这里通过自身的分析完整的总结一下下面6种方 ...
免费edu邮箱申请注冊地址
几个国外.edu邮箱注冊地址: 注冊地址:http://mail.alumni.fandm.edu/reg/reg_pangia.asp @alumni.fandm.edu 注冊地址: http: ...
【spring源代码分析】--Bean的解析与注冊
接着上一节继续分析,DefaultBeanDefinitionDocumentReader的parseBeanDefinitions方法: protected void parseBeanDefini ...
Android Binder分析二：Natvie Service的注冊
这一章我们通过MediaPlayerService的注冊来说明怎样在Native层通过binder向ServiceManager注冊一个service,以及client怎样通过binder向Servi ...
YII用户注冊和用户登录（二）之登录和注冊在视图通过表单使用YII小物件并分析
2 登录和注冊在视图通过表单使用YII小物件并分析 <?php $form = $this -> beginWidget('CActiveForm', array( 'enableClie ...

随机推荐

Java 堆内存
堆内存 Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象. 在 Java 中,堆被划分成两个不同的区域:新生代 ( Young ).老年代 ( Old ).新生代 ...
QT界面使用QStyledItemDelegate QPainter QStyleOptionViewItem QModelIndex组合实现项的绘制
QStyledItemDelegate类为来自模型的数据项提供了显示和编辑工具. 当在Qt项视图(例如QTableView)中显示来自模型的数据时,各个项由委托(delegate)绘制.此外,当编辑一 ...
js计数器
<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content ...
VMWare虚拟机端口转发
# VMWare虚拟机端口转发虚拟机和宿主机共用主机IP对外提供服务,又不想提供给虚拟机独立IP,使用VM虚拟机提供的端口转发功能正合适. ### 端口转发--------------------- ...
ARM与X86架构的对决[整编]
CISC(复杂指令集计算机)和RISC(精简指令集计算机)是当前CPU的两种架构.它们的区别在于不同的CPU设计理念和方法.早期的CPU全部是CISC架构,它的设计目的是 CISC要用最少的机器语言 ...
Spring MVC第一课：用IDEA构建一个基于Spring MVC, Hibernate, My SQL的Maven项目
作为一个Spring MVC新手最基本的功夫就是学会如何使用开发工具创建一个完整的Spring MVC项目,本文站在一个新手的角度讲述如何一步一步创建一个基于Spring MVC, Hibernate ...
List、Map、Set三个接口存储元素时各有什么特点？
List.Map.Set三个接口存储元素时各有什么特点? 解答: 1)List是有序的Collection,使用此接口能够精确的控制每个元素插入的位置.用户能够使用索引(元素在List中的位置,类似于 ...
数据库I/O：CMP、Hibernate
★什么是“Persistence” 用过VMWare的朋友大概都知道当一个guest OS正在运行的时候点击“Suspend”将虚拟OS挂起,它会把整个虚拟内存的内容保存到磁盘上,譬如你为虚拟OS分配 ...
redux sample with redux source code
code sample没有package.json文件,也就没有任何外部依赖,直接使用redux source code. nodejs对es6的import export还不支持,这里使用了stac ...
Ubuntu14.4下搭配WEB服务器(apache + php + mysql)
今天,趁着自己动手安装web服务器的余热,将Ubuntu14.4搭配WEB服务器的过程记录下来. “一切皆文件”. 说明:网上关于类似搭配web服务器的教程,案例不计其数,但自己亲自动手“试试”,一定 ...

hadoop编程：分析CSDN注冊邮箱分布情况

hadoop编程：分析CSDN注冊邮箱分布情况的更多相关文章

随机推荐

热门专题