大型数据库技术实验六实验6：Mapreduce实例—

现有某电商网站用户对商品的收藏数据，记录了用户收藏的商品id以及收藏日期，名为buyer_favorite1。

buyer_favorite1包含：买家id，商品id，收藏日期这三个字段，数据以“\t”分割，样本数据及格式如下：

买家id 商品id 收藏日期

10181 1000481 2010-04-04 16:54:31

20001 1001597 2010-04-07 15:07:52

20001 1001560 2010-04-07 15:08:27

20042 1001368 2010-04-08 08:20:30

20067 1002061 2010-04-08 16:45:33

20056 1003289 2010-04-12 10:50:55

20056 1003290 2010-04-12 11:57:35

20056 1003292 2010-04-12 12:05:29

20054 1002420 2010-04-14 15:24:12

20055 1001679 2010-04-14 19:46:04

20054 1010675 2010-04-14 15:23:53

20054 1002429 2010-04-14 17:52:45

20076 1002427 2010-04-14 19:35:39

20054 1003326 2010-04-20 12:54:44

20056 1002420 2010-04-15 11:24:49

20064 1002422 2010-04-15 11:35:54

20056 1003066 2010-04-15 11:43:01

20056 1003055 2010-04-15 11:43:06

20056 1010183 2010-04-15 11:45:24

20056 1002422 2010-04-15 11:45:49

20056 1003100 2010-04-15 11:45:54

20056 1003094 2010-04-15 11:45:57

20056 1003064 2010-04-15 11:46:04

20056 1010178 2010-04-15 16:15:20

20076 1003101 2010-04-15 16:37:27

20076 1003103 2010-04-15 16:37:05

20076 1003100 2010-04-15 16:37:18

20076 1003066 2010-04-15 16:37:31

20054 1003103 2010-04-15 16:40:14

20054 1003100 2010-04-15 16:40:16

要求编写MapReduce程序，统计每个买家收藏商品数量。

统计结果数据如下：

买家id 商品数量
10181 1
20001 2
20042 1
20054 6
20055 1
20056 12
20064 1
20067 1
20076 5

package mapreduce;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Job job = Job.getInstance();

        job.setJobName("WordCount");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(doMapper.class);

        job.setReducerClass(doReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        Path in = new Path("hdfs://localhost:9000/mymapreduce1/in/buyer_favourite9");

        Path out = new Path("hdfs://localhost:9000/mymapreduce1/out");

        FileInputFormat.addInputPath(job, in);

        FileOutputFormat.setOutputPath(job, out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

    public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{

        public static final IntWritable one = new IntWritable(1);

        public static Text word = new Text();

        @Override

        protected void map(Object key, Text value, Context context)

                    throws IOException, InterruptedException {

            StringTokenizer tokenizer = new StringTokenizer(value.toString(), "   ");

                word.set(tokenizer.nextToken());

                context.write(word, one);

        }

    }

    public static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

        private IntWritable result = new IntWritable();

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values, Context context)

        throws IOException, InterruptedException {

        int sum = 0;

        for (IntWritable value : values) {

        sum += value.get();

        }

        result.set(sum);

        context.write(key, result);

        }

    }

}

实验截图：

大型数据库技术实验六实验6：Mapreduce实例——WordCount的更多相关文章

实验6：Mapreduce实例——WordCount
实验目的1.准确理解Mapreduce的设计原理2.熟练掌握WordCount程序代码编写3.学会自己编写WordCount程序进行词频统计实验原理MapReduce采用的是“分而治之”的 ...
Mapreduce实例——WordCount
实验步骤切换目录到/apps/hadoop/sbin下,启动hadoop. cd /apps/hadoop/sbin ./start-all.sh 2.在linux上,创建一个目录/data/map ...
实验六　DIV+CSS的综合应用
实验六 DIV+CSS的综合应用 [实验目的] 1．掌握DIV布局的方法: 2．利用CSS对DIV进行美化: 3．利用CSS对文本图像等网页元素进行美化 [实验环境] 连接互联网的PC ,Win7操作 ...
VMware vSphere服务器虚拟化实验六 vCenter Server 添加储存
VMware vSphere服务器虚拟化实验六 vCente ...
实验六 CC2530平台上P2P通信的TinyOS编程
实验六 CC2530平台上P2P通信的TinyOS编程实验目的: 加深和巩固学生对于TinyOS编程方法的理解和掌握让学生初步的掌握射频通信TinyOS编程方法学生通过本实验应理解TinyOS中 ...
【黑金原创教程】【FPGA那些事儿-驱动篇I 】实验六：数码管模块
实验六:数码管模块有关数码管的驱动,想必读者已经学烂了 ... 不过,作为学习的新仪式,再烂的东西也要温故知新,不然学习就会不健全.黑金开发板上的数码管资源,由始至终都没有改变过,笔者因此由身怀念. ...
实验六：分析linux内核创建一个新进程的过程
实验六:分析Linux内核创建一个新进程的过程作者:王朝宪 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029 ...
Linux内核分析实验六
Linux内核分析实验六进程控制块PCB——task_struct(进程描述符) 为了管理进程,内核必须对每个进程进行清晰的描述,进程描述符提供了内核所需了解的进程信息. struct task_s ...
20145314郑凯杰《网络对抗技术》可选实验 shellcode注入与Return-to-libc攻击实验
20145314郑凯杰<网络对抗技术>可选实验 shellcode注入与Return-to-libc攻击实验 1.0 实践内容 Return-to-libc攻击是一种特殊的缓冲区溢出攻击, ...

随机推荐

标准 I/O 和管道
1.标准输入和输出1>程序:指令+数据(指令服务于数据) 读入数据:input 输出数据:output 2>三种 I/O 设备 Linux 给程序提供三种 I/O 设备标准输入(STDI ...
leetcode--js--Median of Two Sorted Arrays
问题描述: There are two sorted arrays nums1 and nums2 of size m and n respectively. Find the median of ...
kms在线激活windows和office
本激活,只适用vol版本的windows系统和office 激活windows在windows中使用管理员方式打开cmd命令输入slmgr /skms chongking.com切换kms服务器地址为 ...
Python3标准库：copy复制对象
1. copy复制对象 copy模块包括两个函数copy()和deepcopy(),用于复制现有的对象. 1.1 浅副本 copy()创建的浅副本(shallow copy)是一个新容器,其中填充了原 ...
Android中点击按钮启动另一个Activity以及Activity之间传值
场景点击第一个Activity中的按钮,启动第二个Activity,关闭第二个Activity,返回到第一个Activity. 在第一个Activity中给第二个Activity传递值,第二个Act ...
Java之GUI编程
GUI编程组建窗口弹窗面板文本框列表框按钮图片监听事件鼠标键盘事件破解工具 1.简介 GUI的核心技术:Swing AWT 为什么不流行? 界面不美观. 需要jre环境.(没必 ...
centos 记录所有用户操作命令的脚本
使用history不能看到所有用户的命令记录,如何看所有用户的操作记录. 如下: 在 /etc/profile 最下面加入如下代码即可. PS1="`whoami`@`hostname`:& ...
PMP-番外篇-PMP工具与技术目录
########################################################### 这里先总结所有工具和技术,让大家有一个整体的概念. 也可以当作一个工具和技术查询 ...
gradle与android studio 关系及gradle配置
前言我们一般开发android 使用android studio ,android studio 安装的时候,会帮我们做两件事,配置好自己的jdk. 实际上,使用的其实不是我们在path中配置的jd ...
JaveScript遍历数组的方法
JaveScript遍历数组的方法第一种:for循环遍历出数组的每个值 let arr = [1, 2, 3, 4, 5, 6, 7, 8]; for (let i = 0; i < arr ...

大型数据库技术实验六 实验6：Mapreduce实例——WordCount

大型数据库技术实验六 实验6：Mapreduce实例——WordCount的更多相关文章

随机推荐

热门专题

大型数据库技术实验六实验6：Mapreduce实例——WordCount

大型数据库技术实验六实验6：Mapreduce实例——WordCount的更多相关文章