Mapreduce-实现webcount代码

参考博文：https://blog.csdn.net/qq_41035588/article/details/90514824

首先安装一个Hadoop-Eclipse-Plugin 方便来对于hdfs进行管理

参考地址：http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/

配置好Hadoop-Ecllipse-Plugin之后

建立一个txt文档，里面的内容如下：

 买家id 商品id 收藏日期

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

   -- ::

然后建立一个java项目

然后把所有的包都导进去，重点是mapreduce,common,yarn,hdfs的包

然后再输入代码：

 package mapreduce;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WordCount {

 public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{

     //第一个object表示输入key的类型，第二个text表示输入value的类型；第三个text表示输出建的类型；

     //第四个INtWritable表示输出值的类型

 public static final IntWritable one = new IntWritable(1);

 public static Text word = new Text();

 @Override

 protected void map(Object key, Text value, Context context)

 //key value是输入的key value context是记录输入的key,value

 throws IOException, InterruptedException {

 StringTokenizer tokenizer = new StringTokenizer(value.toString(), "\t");

 //StringTokenizer是Java的工具包中的一个类，用于将字符串进行拆分

 word.set(tokenizer.nextToken());

 //返回当前位置到下一个分隔符之间的字符串

 context.write(word, one);

 //讲word存到容器中计一个数

 }

 }

 public static class doReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

     //输入键类型，输入值类型 输出建类型，输出值类型

 private IntWritable result = new IntWritable();

 @Override

 protected void reduce(Text key, Iterable<IntWritable> values, Context context)

 throws IOException, InterruptedException {

 int sum = 0;

 for (IntWritable value : values) {

 sum += value.get();

 }

 result.set(sum);

 context.write(key, result);

 }

 }

 public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

 Job job = Job.getInstance();

 job.setJobName("WordCount");

 job.setJarByClass(WordCount.class);

 job.setMapperClass(doMapper.class);

 job.setReducerClass(doReducer.class);

 job.setOutputKeyClass(Text.class);

 job.setOutputValueClass(IntWritable.class);

 Path in = new Path("hdfs://localhost:9000/mymapreduce1/in/buyer_favorite1");

 Path out = new Path("hdfs://localhost:9000/mymapreduce1/out");

 FileInputFormat.addInputPath(job, in);

 FileOutputFormat.setOutputPath(job, out);

 System.exit(job.waitForCompletion(true) ? 0 : 1);

 }

 }

然后运行之后查看左边的菜单：

双击part-r-00000就有返回的值了

最重要的问题就是分隔的问题

StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");

这个是根据tab键来进行分割，但是我们复制粘贴后就是空格所以要换成空格

Mapreduce-实现webcount代码的更多相关文章

MapReduce框架结构及代码示例
一个完整的 mapreduce 程序在分布式运行时有三类实例进程: 1.MRAppMaster:负责整个程序的过程调度及状态协调 2.MapTask:负责 map 阶段的整个数据处理流程 3.Redu ...
[大牛翻译系列]Hadoop（15）MapReduce 性能调优：优化MapReduce的用户JAVA代码
6.4.5 优化MapReduce用户JAVA代码 MapReduce执行代码的方式和普通JAVA应用不同.这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduc ...
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
MapReduce工作流多种实现方式
学习 hadoop,必不可少的就是编写 MapReduce 程序.当然,对于简单的分析程序,我们只需一个 MapReduce 任务就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个M ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
[大牛翻译系列]Hadoop（19）MapReduce 文件处理：基于压缩的高效存储（二）
5.2 基于压缩的高效存储(续) (仅包括技术27) 技术27 在MapReduce,Hive和Pig中使用可分块的LZOP 如果一个文本文件即使经过压缩后仍然比HDFS的块的大小要大,就需要考虑选择 ...
MapReduce链接作业
对于简单的分析程序,我们只需一个MapReduce就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行计算.下面我们来说说多个Job或者多个MapReduce ...
十九、Hadoop学记笔记————Hbase和MapReduce
概要: hadoop和hbase导入环境变量: 要运行Hbase中自带的MapReduce程序,需要运行如下指令,可在官网中找到: 如果遇到如下问题,则说明Hadoop的MapReduce没有权限访问 ...
从分治算法到 Hadoop MapReduce
从分治算法说起要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再 ...

随机推荐

使用element-ui中的el-upload组件时携带其他参数
解决方法:// template <el-upload action="/api/oss/file/add" :headers="headers" // ...
[LeetCode] 784. 字母大小写全排列 ☆☆☆(回溯、深度优先遍历)
https://leetcode-cn.com/problems/letter-case-permutation/solution/shen-du-you-xian-bian-li-hui-su-su ...
kbmMW 5.10.10 SmartBinding问题修正
千呼万唤始出来,最新的kbmMW 5.10.01终于发布了,详情可以看xalion发的更新日志. 我期待的Smartbinding for Listview终于来了,在这一版本中,对SmartBind ...
springboot系列（四）springboot 配置
在springboot出现之前,spring项目会存在多个配置文件,如web.xml,配置spring的多个spring-xxx.xml,xxx代表配置spring的某一功能,如aplication- ...
爬虫保存Cookie
import http.cookiejar as cookielib session.cookie = cookielib.LWPCookieJar() session.cookie.save(fil ...
sqlplus set相关设置
Oracle里的set零零碎碎的,这里整理归纳一下 SQL> set timing on; //设置显示“已用时间:XXXX” SQL> set autotrace on ...
Linux的awk 中的while do-while for循环
linux awk的 while.do-while和for语句中允许使用break,continue语句来控制流程走向,也允许使用exit这样的语句来退出.break中断当前正在执行的循环并跳到循环外 ...
bitset 来计算位
在stl中提供了 bitset<N> 来计算位,非常方便. 尤其是计算键盘的状态时游泳 ; bitset<> bs = s; cout<<bs[]<<e ...
大数据之路week05--day01（JDBC 初识之实现一个系统实现用户选择增删改查未优化版本）
要求,实现用户选择增删改查. 给出mysql文件,朋友们可以自己运行导入到自己的数据库中: /* Navicat MySQL Data Transfer Source Server : mysql S ...
对Ajax的一些理解
前言在学习js的过程,我个人对于Ajax这项技术有着很深的印象,大概是因为它在我们网页开发过程中常见的交互里所发挥的作用太过于关键了吧,所以我想在这里好好地谈一些自己对它的理解. 概念理解 Ajax ...

Mapreduce-实现webcount代码

Mapreduce-实现webcount代码的更多相关文章

随机推荐

热门专题