Hadoop之WordCount

求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作商即可。具体原理如下图所示：

系统环境

Linux Centos 7

jdk 1.8

hadoop-3.2

IDEA代码编译器

实验任务：

商品分类 商品点击次数

52127    5

52120    93

52092    93

52132    38

52006    462

52109    28

52109    43

52132    0

52132    34

52132    9

52132    30

52132    45

52132    24

52009    2615

52132    25

52090    13

52132    6

52136    0

52090    10

52024    347

要求使用mapreduce统计出每类商品的平均点击次数。

结果数据如下：

商品分类 商品平均点击次数

52006    462

52009    2615

52024    347

52090    11

52092    93

52109    35

52120    93

52127    5

52132    23

52136    0

步骤：

1.切换到指定目录，启动集群

　　开启hadoop集群，本地安装的为高可用主从二节点的hadoop集群，集成了各项大数据组件。

　　先开启zookeeper，再开启hdfs，再开启yarn。

　　倘若本地安装的是普通分布式或伪分布式集群，直接./start-all.sh启动集群即可。

2.在linux将数据集上传到hdfs中

hadoop fs -mkdir -p /mymapreduce4/in

hadoop fs -put /data/mapreduce4/goods_click /mymapreduce4/in

10181    1000481    2010-04-04 16:54:31

20001    1001597    2010-04-07 15:07:52

20001    1001560    2010-04-07 15:08:27

20042    1001368    2010-04-08 08:20:30

20067    1002061    2010-04-08 16:45:33

20056    1003289    2010-04-12 10:50:55

20056    1003290    2010-04-12 11:57:35

20056    1003292    2010-04-12 12:05:29

20054    1002420    2010-04-14 15:24:12

20055    1001679    2010-04-14 19:46:04

20054    1010675    2010-04-14 15:23:53

20054    1002429    2010-04-14 17:52:45

20076    1002427    2010-04-14 19:35:39

20054    1003326    2010-04-20 12:54:44

20056    1002420    2010-04-15 11:24:49

20064    1002422    2010-04-15 11:35:54

20056    1003066    2010-04-15 11:43:01

20056    1003055    2010-04-15 11:43:06

20056    1010183    2010-04-15 11:45:24

20056    1002422    2010-04-15 11:45:49

20056    1003100    2010-04-15 11:45:54

20056    1003094    2010-04-15 11:45:57

20056    1003064    2010-04-15 11:46:04

20056    1010178    2010-04-15 16:15:20

20076    1003101    2010-04-15 16:37:27

20076    1003103    2010-04-15 16:37:05

20076    1003100    2010-04-15 16:37:18

20076    1003066    2010-04-15 16:37:31

20054    1003103    2010-04-15 16:40:14

20054    1003100    2010-04-15 16:40:16

3.创建java工程，将jar包导入进去

　　为了避免版本冲突，和不必要的麻烦，可将hadoop目录下share/hadoop文件中的所有jar包导入进去。

Mapper代码<<<<
public static class Map extends Mapper<Object , Text , Text , IntWritable>{

    private static Text newKey=new Text();

    //实现map函数

    public void map(Object key,Text value,Context context) throws IOException, InterruptedException{

    // 将输入的纯文本文件的数据转化成String

    String line=value.toString();

    System.out.println(line);

    String arr[]=line.split("\t");

    newKey.set(arr[0]);

    int click=Integer.parseInt(arr[1]);

    context.write(newKey, new IntWritable(click));

    }

    }

Reduce代码<<<<<
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable>{

//实现reduce函数

public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException{

    int num=0;

    int count=0;

    for(IntWritable val:values){

    num+=val.get(); //每个元素求和num

    count++;        //统计元素的次数count

    }

    int avg=num/count;  //计算平均数

    context.write(key,new IntWritable(avg));

    }

    }

完整代码如下：

package mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class MyAverage{

    public static class Map extends Mapper<Object , Text , Text , IntWritable>{

    private static Text newKey=new Text();

    public void map(Object key,Text value,Context context) throws IOException, InterruptedException{

    String line=value.toString();

    System.out.println(line);

    String arr[]=line.split("\t");

    newKey.set(arr[0]);

    int click=Integer.parseInt(arr[1]);

    context.write(newKey, new IntWritable(click));

    }

    }

    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable>{

    public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException{

        int num=0;

        int count=0;

        for(IntWritable val:values){

        num+=val.get();

        count++;

        }

        int avg=num/count;

        context.write(key,new IntWritable(avg));

        }

        }

        public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{

        Configuration conf=new Configuration();

        System.out.println("start");

        Job job =new Job(conf,"MyAverage");

        job.setJarByClass(MyAverage.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        Path in=new Path("hdfs://localhost:9000/mymapreduce4/in/goods_click");

        Path out=new Path("hdfs://localhost:9000/mymapreduce4/out");

        FileInputFormat.addInputPath(job,in);

        FileOutputFormat.setOutputPath(job,out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

        }

        }

4.执行

　　执行方式有两种

　　①直接在本地运行，前提要在本地配置好hadoop环境变量，直接运行即可。

　　②将此文件打包成jar包，上传到linux中再，用命令运行。

hadoop jar /apps/hadoop/hadoop-mapreduce.jar wordcount /in /out

查看运行结果：

hadoop fs -ls /mymapreduce4/out

hadoop fs -cat /mymapreduce4/out/part-r-00000

Hadoop之WordCount的更多相关文章

Hadoop中wordcount程序
一.测试过程中输入命令: 首先需要在hadoop集群中添加文件可以首先进行查看hadoop集群中文件目录 hadoop fs -ls / hadoop fs -ls -R / hadoop fs ...
[Linux][Hadoop] 运行WordCount例子
紧接上篇,完成Hadoop的安装并跑起来之后,是该运行相关例子的时候了,而最简单最直接的例子就是HelloWorld式的WordCount例子. 参照博客进行运行:http://xiejiangl ...
伪分布式环境下命令行正确运行hadoop示例wordcount
首先确保hadoop已经正确安装.配置以及运行. 1. 首先将wordcount源代码从hadoop目录中拷贝出来. [root@cluster2 logs]# cp /usr/local/h ...
一个可以跑的Hadoop的WordCount程序
搭个新环境时总要折腾一下,于是干脆记下来. 程序: package com.my; import java.io.IOException; import java.util.Iterator; imp ...
hadoop执行wordcount例子
1:下载hadoop.http://mirror.esocc.com/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2:解压. tar - ...
【Hadoop】Hadoop mr wordcount基础
1.基本概念 2.Mapper package com.ares.hadoop.mr.wordcount; import java.io.IOException; import java.util.S ...
Windows用Eclipse来开发hadoop的WordCount的helloworld
[学习笔记] 2.Win7用Eclipse来开发hadoop的WordCount的helloworld网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Ecli ...
5行代码怎么实现Hadoop的WordCount？
初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当 ...
hadoop:将WordCount打包成独立运行的jar包
hadoop示例中的WordCount程序,很多教程上都是推荐以下二种运行方式: 1.将生成的jar包,复制到hadoop集群中的节点,然后运行 $HADOOP_HOME/bin/hadoop xxx ...
Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
需求计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello had ...

随机推荐

第7.7节案例详解：Python类继承机制
本节实现一个类继承的小程序,下面一边结合代码一边介绍相关继承的知识.例子以车.汽车为例,车为父类.汽车为子类. 一. 定义父类Vehicle class Vehicle(): def __ ...
PyQt+moviepy音视频剪辑实战2：一个剪裁视频文件精华内容留存工具的实现
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用 PyQt+moviepy音视频剪辑实战专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录一.引言 ...
DVWA学习笔记
原来装的DVWA没有认认真真地做一遍,靶场环境也有点问题了,到github上面重新下载了一遍:https://github.com/ethicalhack3r/DVWA 复习常见的高危漏洞,产生,利用 ...
认识 Cargo-Rust构建工具和包管理器
认识 Cargo-Rust构建工具和包管理器上两篇文章都有说到 hello world 程序,但是我们如果使用自己创建文件的方式创建项目,一旦文件多了,那得多麻烦,整个项目将变得难以管理.下面我来 ...
如何实现OSM地图本地发布并自定义配图
目录 1.缘起 2.准备环境 2.1.安装linux系统 2.2.安装docker 2.3.安装Docker Compose 2.4.安装git 3.发布地图 3.1.拉取代码 3.2.测试网络 3. ...
SpringBoot 拦截器和自定义注解判断请求是否合法
应用场景举例: 当不同身份的用户请求一个接口时,用来校验用户某些身份,这样可以对单个字段数据进行精确权限控制,具体看代码注释自定义注解 /** * 对比请求的用户身份是否符合 * @author l ...
后台运行程序nohup的使用
linux后台运行程序 nohup python3 test.py >output 2>&1 & 参数解释用途:不挂断地运行命令. 语法:nohup Command [ ...
Python3中zipfile模块文件名乱码问题
inux下zip文件乱码已经是一个常见问题了,再加上python想不遇到乱码问题都难. 在zipfile.ZipFile中获得的filename有中日文则很大可能是乱码,这是因为在zip标准中,对文 ...
Flink怎么做到精确一次的?
使用分布式快照机制和两阶段提交两阶段提交在 Flink 中两阶段提交的实现方法被封装到了 TwoPhaseCommitSinkFunction 这个抽象类中,我们只需要实现其中的beginT ...
matplotlib的学习15-次坐标轴
import matplotlib.pyplot as plt import numpy as np x = np.arange(0, 10, 0.1) y1 = 0.05 * x**2 y2 = - ...

Hadoop之WordCount

Hadoop之WordCount的更多相关文章

随机推荐

热门专题