map/reduce实现数据去重

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.conf.Configured;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

 import org.apache.hadoop.util.Tool;

 import org.apache.hadoop.util.ToolRunner;

 public class Dedpu extends Configured implements Tool {

 /**

  * 数据去重

  * 数据样例：

  * 输入数据

  * 2006-6-9 a

  * 2006-6-10 b

  * 2006-6-9 a

  * 结果数据

  * 2006-6-9 a

  * 2006-6-10 b

  * 设计思路：

  * Map阶段 <时间，字符>

  * Reduce阶段输入<时间，list<字符>>，去除重复的字符，输出

  *

  * **/

     public static class Map extends Mapper<LongWritable,Text,Text,Text>{

         public void map(LongWritable key,Text value,Context context)throws IOException, InterruptedException{

             String line=value.toString();

             Text myvalue=new Text("");

             context.write(new Text(line), myvalue);

 //            StringTokenizer tokenizer=new StringTokenizer(line);

 //            String datestr="",datastr="";

 //            while(tokenizer.hasMoreTokens())

 //            {

 //                datestr=tokenizer.nextToken();

 //                datastr=tokenizer.nextToken();

 //                context.write(new Text(datestr), new Text(datastr));

 //

 //            }

         }

     }

     public static class Reduce extends Reducer<Text,Text,Text,Text>{

         public void reduce(Text key,Iterable<Text>values,Context context)throws IOException,InterruptedException{

             context.write(key, new Text(""));

 //            ArrayList  arr=new ArrayList();

 //            Text mykey=key;

 //            for(Text txt:values)

 //            {

 //

 //                if(!arr.contains(txt.toString())){

 //                    arr.add(txt.toString());

 //                }

 //

 //

 //            }

 //            for(int i=0;i<arr.size();i++){

 //                context.write(mykey, new Text(arr.get(i).toString()));

 //

 //            }

         }

     }

     public int run(String[] args)throws Exception

     {

         Configuration conf=new Configuration();

         Job job=new Job(conf,"Data Depution");

         job.setJarByClass(Dedpu.class);

         job.setMapperClass(Map.class);

         job.setCombinerClass(Reduce.class);

         job.setReducerClass(Reduce.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         job.setInputFormatClass(TextInputFormat.class);

         job.setOutputFormatClass(TextOutputFormat.class);

         FileInputFormat.setInputPaths(job, new Path(args[0]));

         FileOutputFormat.setOutputPath(job, new Path(args[1]));

         boolean success=job.waitForCompletion(true);

         return success?0:1;

     }

     public static void main(String[] args) throws Exception{

         int ret=ToolRunner.run(new Dedpu(), args);

         System.exit(ret);

     }

 }

map/reduce实现数据去重的更多相关文章

Map/Reduce个人实战--生成数据测试集
背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, ...
Hadoop 少量map/reduce任务执行慢问题
最近在做报表统计,跑hadoop任务. 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题. 执行时间长有几种可能性: 1. 单个map/reduce任务处 ...
Map/Reduce 工作机制分析 --- 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理关键词:<Hadoop权威指南> ...
第十篇：Map/Reduce 工作机制分析 - 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
机器学习等知识--- map/reduce, python 读json数据。。。
map/ reduce 了解: 简单介绍map/reduce 模式: http://www.csdn.net/article/2013-01-07/2813477-confused-about-map ...
List<Map>中根据map的同一指标项数据——去重代码
先看网络上,博客经常出现的错误代码: for(ABatchAddCheckVO aBatchAddCheckVO : addList){ dto.put("aac001",aBat ...
入门大数据---Map/Reduce，Yarn是什么？
简单概括:Map/Reduce是分布式离线处理的一个框架. Yarn是Map/Reduce中的一个资源管理器. 一.图形说明下Map/Reduce结构: 官方示意图: 另外还可以参考这个: 流程介绍: ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...

随机推荐

[翻译]ASP.NET Web API 2入门
原文:Getting Started with ASP.NET Web API 2 Step 1:新建一个Empty的Web API Project. Step 2:添加一个Model: public ...
MongoDB3.2版本与3.0版本写场景压力测试对比
我们主要是为了测试journal对写操作性能的影响.分别测试了3.2版本,3.0版本在ramdisk,hdd上有journal,和没journal的情况. 发现一个很怪异的现象,3.2版本时候,随着y ...
php练习3——猜拳游戏，评委打分问题
用户与计算机猜拳程序caiQuan.html和caiQuan.php: 结果: 评委打分问题,去掉一个最低分和最高分,求平均分,并找出最低分和最高分对应第几个评委, 再找出最佳评委(打分最接近 ...
mvc中的OutputCache
mvc4中有一个标记属性OutputCache,用来对ActionResult结果进行缓存,如何理解呢?概括地说,就是当你的请求参数没有发生变化时,直接从缓存中取结果,不会再走服务端的Action代码 ...
【python】python的二元表达式和三元表达式
二元表达式 x,y=4,3if x>y: s = yelse: s= x print s x if x<y else y 三元表达式: >>> def f(x,y): ...
load-store/register-memory/register-plus-memory比较
在理解ARM的load-store架构时,我在百度上搜索了很长时间,但是始终找不到一篇像样的中文文章.最后,在用谷歌搜索的英文网站上终于找到了一些蛛丝马迹.让我们先看一下一篇英文资料. Process ...
Android Camera 预览图像被拉伸变形的解决方法【转】
问题描述: 预览图像被拉伸变形问题原因: 由于预览图像大小跟SurfaceView 大小不一致引起解决方法: 获取系统支持的所有预览尺寸[getSupportedPictureSizes],然后再 ...
apache asp.net
http://www.apache.org/dist/httpd/ http://server.it168.com/server/2005-10-11/20051011027201.shtml htt ...
Java 声明和访问控制（一）数组的声明 private可以修饰类吗
数组的声明: int []a[] = new int[4][];//是正确的 int[] array = new int[2]{1,2};//是错误的数组的长度是不可改变的,不能通过任何方式改变大小 ...
struts一点心得
action中: 设置属性并增加get,set方法,给属性赋值后 (如: private String name; public String getName() { return name; } p ...

map/reduce实现数据去重

map/reduce实现数据去重的更多相关文章

随机推荐

热门专题