一、原理分析

　　Mapreduce的处理过程，由于Mapreduce会在Map~reduce中，将重复的Key合并在一起，所以Mapreduce很容易就去除重复的行。Map无须做任何处理，设置Map中写入context的东西为不作任何处理的行，也就是Map中最初处理的value即可，而Reduce同样无须做任何处理，写入输出文件的东西就是，最初得到的Key。

　　我原来以为是map阶段用了hashmap，根据hash值的唯一性。估计应该不是...

　　Map是输入文件有几行，就运行几次。

二、代码

2.1 Mapper

package algorithm;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class DuplicateRemoveMapper extends

		Mapper<LongWritable, Text, Text, Text> {

	//输入文件是数字 不过可能也有字符等 所以用Text，不用LongWritable

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		context.write(value, new Text());//后面不能是null，否则，空指针

	}

}

2.2 Reducer

package algorithm;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class DuplicateRemoveReducer extends Reducer<Text, Text, Text, Text> {

	public void reduce(Text key, Iterable<Text> value, Context context)

			throws IOException, InterruptedException {

		// process values

		context.write(key, null); //可以出处null

	}

}

2.3 Main

package algorithm;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DuplicateMainMR  {

	public static void main(String[] args) throws Exception{

		// TODO Auto-generated method stub

		Configuration conf = new Configuration();

		Job job = new Job(conf,"DuplicateRemove");

		job.setJarByClass(DuplicateMainMR.class);

		job.setMapperClass(DuplicateRemoveMapper.class);

		job.setReducerClass(DuplicateRemoveReducer.class);

		job.setOutputKeyClass(Text.class);

		//输出是null，不过不能随意写  否则包类型不匹配

		job.setOutputValueClass(Text.class);

		job.setNumReduceTasks(1);

		//hdfs上写错了文件名 DupblicateRemove  多了个b

		//hdfs不支持修改操作

		FileInputFormat.addInputPath(job, new Path("hdfs://192.168.58.180:8020/ClassicalTest/DupblicateRemove/DuplicateRemove.txt"));

		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.58.180:8020/ClassicalTest/DuplicateRemove/DuplicateRemoveOut"));

		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}

}

三、输出分析

3.1 输入与输出

没啥要对比的....不贴了

3.2 控制台

doop.mapreduce.Job.updateStatus(Job.java:323)

  INFO - Job job_local4032991_0001 completed successfully

 DEBUG - PrivilegedAction as:hxsyl (auth:SIMPLE) from:org.apache.hadoop.mapreduce.Job.getCounters(Job.java:765)

  INFO - Counters: 38

	File System Counters

		FILE: Number of bytes read=560

		FILE: Number of bytes written=501592

		FILE: Number of read operations=0

		FILE: Number of large read operations=0

		FILE: Number of write operations=0

		HDFS: Number of bytes read=48

		HDFS: Number of bytes written=14

		HDFS: Number of read operations=13

		HDFS: Number of large read operations=0

		HDFS: Number of write operations=4

	Map-Reduce Framework

		Map input records=8

		Map output records=8

		Map output bytes=26

		Map output materialized bytes=48

		Input split bytes=142

		Combine input records=0

		Combine output records=0

		Reduce input groups=6

		Reduce shuffle bytes=48

		Reduce input records=8

		Reduce output records=6

		Spilled Records=16

		Shuffled Maps =1

		Failed Shuffles=0

		Merged Map outputs=1

		GC time elapsed (ms)=4

		CPU time spent (ms)=0

		Physical memory (bytes) snapshot=0

		Virtual memory (bytes) snapshot=0

		Total committed heap usage (bytes)=457179136

	Shuffle Errors

		BAD_ID=0

		CONNECTION=0

		IO_ERROR=0

		WRONG_LENGTH=0

		WRONG_MAP=0

		WRONG_REDUCE=0

	File Input Format Counters

		Bytes Read=24

	File Output Format Counters

		Bytes Written=14

 DEBUG - PrivilegedAction as:hxsyl (auth:SIMPLE) from:org.apache.hadoop.mapreduce.Job.updateStatus(Job.java:323)

 DEBUG - stopping client from cache: org.apache.hadoop.ipc.Client@37afeb11

 DEBUG - removing client from cache: org.apache.hadoop.ipc.Client@37afeb11

 DEBUG - stopping actual client because no more references remain: org.apache.hadoop.ipc.Client@37afeb11

 DEBUG - Stopping client

 DEBUG - IPC Client (521081105) connection to /192.168.58.180:8020 from hxsyl: closed

 DEBUG - IPC Client (521081105) connection to /192.168.58.180:8020 from hxsyl: stopped, remaining connections 0

MapReduce实现数据去重的更多相关文章

MapReduce实例(数据去重)
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现 ...
利用MapReduce实现数据去重
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选. 统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 示例文件内容: 此处应有示例文件设计思路数据 ...
hadoop mapreduce实现数据去重
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容输出 value--空. reduce 会自动统计所有的key,我们让reduce输出key-> ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...
hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
map/reduce实现数据去重
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.co ...
Hadoop 数据去重
数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重.下面就进入这个实例的MapReduce ...
MapReduce的数据流程、执行流程
MapReduce的数据流程: 预先加载本地的输入文件经过MAP处理产生中间结果经过shuffle程序将相同key的中间结果分发到同一节点上处理 Recude处理产生结果输出将结果输出保存在hd ...
MYSQL数据去重与外表填充
经常要对数据库中的数据进行去重,有时还需要使用外部表填冲数据,本文档记录数据去重与外表填充数据. date:2016/8/17 author:wangxl 1 需求对user_info1表去重,并添 ...

随机推荐

mac系统使用内置的 PHP
从 OS X 10.0.0 版本开始,PHP 作为 Mac 机的标准配置被提供.在默认的 web 服务器中启用 PHP,只需将 Apache 配置文件 httpd.conf 中的几行配置指令最前面的注 ...
STL标准库面试常考知识点
C++ STL 之所以得到广泛的赞誉,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封装了许多复杂的数据结构算法和大量常用数据结构操作.vecto ...
重构Web Api程序(Api Controller和Entity) 续篇(2)
一代好的程序,是几经修改与重构出来的.有关此篇Insus.NET对前面所在修改与重构,还是没有觉得很完美简洁.特别对是存在的json文件进行修改或是删除时,我们原先是从文件读取数据,修改或是删除数据, ...
毫米转换为PX
公式:毫米数/25.4*你的电脑的DPI,win7 DPI 100%缩放为96,125%为120,150%为144,200%为192 象素数 / DPI = 英寸数英寸数 * 25.4 = 毫米数
清北学堂2017NOIP冬令营入学测试P4749 C’s problem(c)
P4746 C's problem(c) 时间: 1000ms / 空间: 655360KiB / Java类名: Main 背景冬令营入学测试描述题目描述小C是一名数学家,由于它自制力比较差 ...
File类
存储在变量,数组和对象中的数据是暂时的,当程序终止时他们就会丢失.为了能够永久的保存程序中创建的数据,需要将他们存储到硬盘或光盘的文件中.这些文件可以移动,传送,亦可以被其他程序使用.由于数据存储在文 ...
C# where用法
where 子句用于指定类型约束,这些约束可以作为泛型声明中定义的类型参数的变量. 1.接口约束. 例如,可以声明一个泛型类 MyGenericClass,这样,类型参数 T 就可以实现 ICompa ...
hadoop: hbase1.0.1.1 伪分布安装
环境:hadoop 2.6.0 + hbase 1.0.1.1 + mac OS X yosemite 10.10.3 安装步骤: 一.下载解压到官网 http://hbase.apache.org ...
nginx学习(2)：启动gzip、虚拟主机、请求转发、负载均衡
一.启用gzip gzip on; gzip_min_length 1k; gzip_buffers 4 16k; gzip_http_version 1.1; gzip_comp_level 2; ...
单例模式的两种实现方式对比：DCL (double check idiom）双重检查和 lazy initialization holder class（静态内部类）
首先这两种方式都是延迟初始化机制,就是当要用到的时候再去初始化. 但是Effective Java书中说过:除非绝对必要,否则就不要这么做. 1. DCL (double checked lockin ...

MapReduce实现数据去重