mapreduce去重

现有一个某电商网站的数据文件，名为buyer_favorite1，记录了用户收藏的商品以及收藏的日期，文件buyer_favorite1中包含（用户id，商品id，收藏日期）三个字段，数据内容以“\t”分割，由于数据很大，所以为了方便统计我们只截取它的一部分数据，内容如下：

买家id   商品id    收藏日期  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::

要求用Java编写MapReduce程序，根据商品id进行去重，统计用户收藏商品中都有哪些商品被收藏。

源代码：

package mapreduce;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Reducer.Context;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import mapreduce.WordCount.MyMapper;

import mapreduce.WordCount.MyReducer;

public class Filter {

    public static class Map extends Mapper<Object, Text, Text, NullWritable> {

        private static Text newKey = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

            StringTokenizer itr = new StringTokenizer(value.toString());

            while (itr.hasMoreTokens()) {

                String line = itr.nextToken();

                String arr = line.substring(, line.indexOf("   "));

                newKey.set(arr);

                System.out.println(arr);

                context.write(newKey, NullWritable.get());

            }

        }

    }

    public static class Reduce extends Reducer<Text, NullWritable, Text, NullWritable> {

        public void reduce(Text key, Iterable<NullWritable> values, Context context)

                throws IOException, InterruptedException {

            context.write(key, NullWritable.get());

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        System.out.println("start");

        Job job = new Job(conf, "filter");

        job.setJarByClass(Filter.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        Path in = new Path("hdfs://localhost:9000/mymapreduce2/in/buyer_favorite1");

        Path out = new Path("hdfs://localhost:9000/mymapreduce2/out");

        FileInputFormat.addInputPath(job, in);

        FileOutputFormat.setOutputPath(job, out);

        System.exit(job.waitForCompletion(true) ?  : );

    }

}

统计数据：


买家id

遇到的问题：

1.这次代码和上次代码很相似，所以这次代码石油上次代码复制粘贴过来改了一下。但是忘了该main函数中"job.setJarByClass(Filter.class);job.setMapperClass(Map.class);job.setReducerClass(Reduce.class);"。所以一直运行的是上次写的代码。

后来改了过来。

mapreduce去重的更多相关文章

mapreduce学习指导及疑难解惑汇总
原文链接http://www.aboutyun.com/thread-7091-1-1.html 1.思想起源: 我们在学习mapreduce,首先我们从思想上来认识.其实任何的奇思妙想,抽象的,好的 ...
零基础学习hadoop到上手工作线路指导初级篇：hive及mapreduce
此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结.五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解:hadoop分为h ...
Hadoop 入门
我看过的比较全的文章.赞一下原文链接:http://www.aboutyun.com/thread-8329-1-1.html 问题导读: 1.hadoop编程需要哪些基础?2.hadoop编程需要 ...
零基础学习hadoop到上手工作线路指导（编程篇）
问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如 ...
零基础学习hadoop到上手工作线路指导（中级篇）
此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结. 五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解: hadoop分为h ...
hadoop1.0.3学习笔记
回到目录最近要从网上抓取数据下来,然后hadoop来做存储和分析. 呆毛王赛高月子酱赛高小唯酱赛高目录安装hadoop1.0.3 HDFS wordcount mapreduce去重 ...
[Hadoop]-从数据去重认识MapReduce
这学期刚好开了一门大数据的课,就是完完全全简简单单的介绍的那种,然后就接触到这里面最被人熟知的Hadoop了.看了官网的教程[吐槽一下,果然英语还是很重要!],嗯啊,一知半解地搭建了本地和伪分布式的, ...
Hadoop阅读笔记（二）——利用MapReduce求平均数和去重
前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里:那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫.这一 ...
MapReduce应用案例--简单的数据去重
1. 设计思路去重,重点就是无论某个数据在文件中出现多少次,最后只是输出一次就可以. 根据这一点,我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是k ...

随机推荐

【转】PEAR安装、管理及使用
PEAR安装 linux下只要你安装的是PHP 4.3.0以上的版本,默认安装都是支持PEAR的,除非你使用了”--WITHOUT-PEAR”选项,修改PHP.INI文件,在INCLUDE_PAT ...
Windows系统安装 CMake
Windows系统安装 CMake 我们的电脑系统:Windows 10 64位安装的CMake 版本:cmake-3.6.1-win64-x64(目前最新) 下载在CMake官网下载:cmak ...
bzoj1735 [Usaco2005 jan]Muddy Fields 泥泞的牧场
传送门分析我们知道对于没有障碍的情况就是将横轴点于纵轴点连边于是对于这种有障碍的情况我们还是分横轴纵轴考虑只不过对于有障碍的一整条分为若干个无障碍小段来处理然后将标号小段连边,跑最大匹配即可 ...
ubuntu nvidia驱动+cuda9.0
https://blog.csdn.net/fdqw_sph/article/details/78745375
关于Spring注解配置的步骤
今天分享一下关于Spring注解配置的流程 1 导包:如下图所示 2 书写User和Car类代码如下 package cn.lijun.bean; public class Car { priv ...
Joda Time 使用
Joda Time 使用对于系统的一些时间操作很是不方便,为了方便转化,有时候用date,有时候用timestmp,有时候用calendar,忍不住想更改了. 但是任务巨大,先把笔记收藏了,后面有机 ...
常用Git命令清单
我现在工作几乎每天都使用 Git ,但是很多命令记不住. 一般来说,日常使用只要记住下图6个命令,就可以了.但是熟练使用,恐怕要记住60-100个命令. 下面是我整理的常用 Git 命令清单.几个专用 ...
java多线程系列：CountDownLatch
这篇文章将介绍CountDownLatch这个同步工具类的基本信息以及通过案例来介绍如何使用这个工具. CountDownLatch是java.util.concurrent包下面的一个工具类,可以用 ...
jQuery+css实现tab功能
点击我我会消失 Click me 点击按钮我会消失,再点击我会出现演示tab tab1 tab2 tab3 [环球时报记者郭芳] “中国秘密发射新快速响应火箭”,25日,在中国官方媒体报道我国“快 ...
nfs搭建和挂载
1.搭建server a.创建共享目录 mkdir /nfs1 b.vim /etc/sysconfig/nfs 固定端口 c.vim /etc/export /nfs1 192.168.10 ...

mapreduce去重

mapreduce去重的更多相关文章

随机推荐

热门专题