MapReduce应用案例--简单的数据去重

1. 设计思路

　　去重，重点就是无论某个数据在文件中出现多少次，最后只是输出一次就可以。根据这一点，我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是key相同的，在shuffle阶段都会聚合在一起，所以只要在map阶段将要去重的数据作为key值就可以达到目的。

2. 具体实现

package moverepeat;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 *

 * @author Amei 去除重复的数据项

 */

public class Remove {

    public static class Map extends Mapper<LongWritable, Text, Text, Text> {

        protected void map(LongWritable key, Text value, Context output)

                throws java.io.IOException, InterruptedException {

            //将每一行的数据作为map输出的key

            output.write(value, new Text(""));

        };

    }

    public static class Reduce extends Reducer<Text, Text, Text, Text> {

        protected void reduce(Text key, Iterable<Text> values, Context output)

                throws java.io.IOException, InterruptedException {

            //经过shuffle阶段后，Reduce的输入数据格式为<key, value list>,此时key没有相同的值

            output.write(key, new Text(""));

        };

    }

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException {

        Configuration configuration = new Configuration();

        Job job = new Job(configuration, "remove");

        job.setJarByClass(Remove.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(

                "/user/hadoop_admin/removein"));

        FileOutputFormat.setOutputPath(job, new Path(

                "/user/hadoop_admin/removeout"));

        System.exit((job.waitForCompletion(true) ? 0 : 1));

    }

}

　　测试用例

　　file01

wangkun

wangkun

wangkun

amei

amei

　　file02

wangkun

wangkun

wangkun

amei

amei

　去重结果：

amei

amei

wangkun

wangkun

wangkun

wangkun

wangkun

MapReduce应用案例--简单的数据去重的更多相关文章

MapReduce应用案例--简单排序
1. 设计思路在MapReduce过程中自带有排序,可以使用这个默认的排序达到我们的目的. MapReduce 是按照key值进行排序的,我们在Map过程中将读入的数据转化成IntWritable类 ...
MapReduce编程系列 — 3：数据去重
1.项目名称: 2.程序代码: package com.dedup; import java.io.IOException; import org.apache.hadoop.conf.Configu ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...
MapReduce实例(数据去重)
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现 ...
利用MapReduce实现数据去重
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选. 统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 示例文件内容: 此处应有示例文件设计思路数据 ...
hadoop mapreduce实现数据去重
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容输出 value--空. reduce 会自动统计所有的key,我们让reduce输出key-> ...
hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
js 对只包含简单类型数据的对象为元素组成的数组进行去重
/** * 对于由简单类型数据组成的对象为元素组成的数组进行去重操作 * @params {Array} 需要去重的对象数组 * @returns {Array} 去重后的对象数组 */ functi ...
大数据笔记（十）——Shuffle与MapReduce编程案例（A）
一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运 ...

随机推荐

用fontAwesome代替网页icon小图标
1. 引言网页小图标到处可见,如果一个网页都是干巴巴的文字和图片,而没有小图标,会显得非常简陋.下面的小图标,你是不是会经常用到? 你可能说——“我们用的都是彩色的,不是黑白的”——别着急,下面会讲 ...
【2016-08-21】Linux内核版本编号规则简介
我们已经了解可以使用下面的几天命令来查看Linux内核版本及Ubuntu发行版本的信息: uname -r uname -a cat /proc/version lsb-release -a 等等可 ...
如何解决exe4j生成exe文件后弹出提示信息
使用exe4j生成exe文件时会提示以上一段信息,这个主要是没有注册导致的,在welcome to exe4j的右下角有一个注册信息的地方,去找个注册码,就OK了. 通用注册码:L-g782dn2d- ...
XMPP框架下微信项目总结（8）图片发送
前言:“图片”发送和“聊天文本”都是通过模块发起的成为:“消息模块”(反正传递的都是字符串) 发送原理: 1 current客户端获取本地图片 2 xmpp发送“字符串”(为什么是字符串?1: ...
iOS - 线程管理
iOS开发多线程篇—GCD的常见用法一.延迟执行 1.介绍 iOS常见的延时执行有2种方式 (1)调用NSObject的方法 [self performSelector:@selector(run) ...
MongoDB增删查改
1.insert db.Customers.insert({ "DateTest":new Date(), "IntTest":32, "Double ...
Delphi中record和packed record的区别
转载:http://blog.csdn.net/rznice/article/details/6566978 第一种不带packed关键字的结构体表明编译器编译时要求进行字对齐. 而第二种带packe ...
select * from salgrade for update和select * from salgrade for update nowait区别
1,select * from salgrade for update session1 session2 SQL> delete salgrade where grade=1; 1 row d ...
JSP/Servlet的编码原理
转自:http://janwer.iteye.com/blog/150226 首先,说说 JSP/Servlet 中的几个编码的作用在 JSP/Servlet 中主要有以下几种设置编码的方式: pa ...
【使用Unity开发Windows Phone上的2D游戏】（1）千里之行始于足下
写在前面的其实这个名字起得不太欠当,Unity本身是很强大的工具,可以部署到很多个平台,而不仅仅是可以开发Windows Phone上的游戏. 只不过本人是Windows Phone 应用开发出身, ...

MapReduce应用案例--简单的数据去重

MapReduce应用案例--简单的数据去重的更多相关文章

随机推荐

热门专题