Mapperreduce的wordCount原理

wordcount原理：

1.mapper（Object key,Object value ,Context contex）阶段

2.从数据源读取一行数据传递给mapper函数的value

3.处理数据并将处理结果输出到reduce中去

String line = value.toString（）；

String[] words = line.split(" ");

context.write(word,1)

4.reduce（Object key ,List<value> values ,Context context）阶段

遍历values累加技术结果，并将数据输出

context.write(word,1)

代码示例：

Mapper类：

package com.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/**

 * Mapper <Long, String, String, Long>

 * Mapper<LongWritable, Text, Text, LongWritable>//hadoop对上边的数据类型进行了封装

 *  LongWritable（Long）:偏移量

 *  Text（String）：输入数据的数据类型

 *  Text（String）:输出数据的key的数据类型

 *  LongWritable（Long）:输出数据的key的数据类型

 * @author shiwen

 */

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

    @Override

    protected void map(LongWritable key, Text value,

            Mapper<LongWritable, Text, Text, LongWritable>.Context context)

            throws IOException, InterruptedException {

        //1.读取一行

        String line = value.toString();

        //2.分割单词

        String[] words = line.split(" ");

        //3.统计单词

        for(String word : words){

            //4.输出统计

            context.write(new Text(word), new LongWritable(1));

        }

    }

}

reduce类

package com.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReduce extends Reducer<Text, LongWritable, Text, LongWritable>{

    @Override

    protected void reduce(Text key, Iterable<LongWritable> values,

            Reducer<Text, LongWritable, Text, LongWritable>.Context context)

            throws IOException, InterruptedException {

        long count = 0;

        //1.遍历vlues统计数据

        for(LongWritable value : values){

            count += value.get();

        }

        //输出统计

        context.write(key, new LongWritable(count));

    }

}

运行类：

package com.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider.Text;

public class WordCountRunner {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //1.创建配置对象

        Configuration config = new Configuration();

        //2.Job对象

        Job job = new Job(config);

        //3.设置mapperreduce所在的jar包

        job.setJarByClass(WordCountRunner.class);

        //4.设置mapper的类

        job.setMapOutputKeyClass(WordCountMapper.class);

        //5.设置reduce的类

        job.setReducerClass(WordCountReduce.class);

        //6.设置reduce输入的key的数据类型

        job.setOutputKeyClass(Text.class);

        //7.设置reduce输出的value的数据类型

        job.setOutputValueClass(LongWritable.class);

        //8.设置输入的文件位置

        FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.1.10:9000/input"));

        //9.设置输出的文件位置

        FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.1.10:9000/input"));

        //10.将任务提交给集群

        job.waitForCompletion(true);

    }

}

Mapperreduce的wordCount原理的更多相关文章

Hive实现WordCount详解
一.WordCount原理初学MapReduce编程,WordCount作为入门经典,类似于初学编程时的Hello World.WordCount的逻辑就是给定一个/多个文本,统计出文本中每次单词/ ...
4、wordcount程序原理剖析及Spark架构原理
一.wordcount程序原理深度剖析二.Spark架构原理 1.
MapReduce本地运行模式wordcount实例（附：MapReduce原理简析）
1. 环境配置 a) 配置系统环境变量HADOOP_HOME b) 把hadoop.dll文件放到c:/windows/System32目录下 c) ...
Hadoop WordCount单词计数原理
计算文件中出现每个单词的频数输入结果按照字母顺序进行排序编写WordCount.java 包含Mapper类和Reducer类编译WordCount.java javac -classpath ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
hadoop运行原理之Job运行(二) Job提交及初始化
本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程. 以WordCount为例,以前的程序都是通过JobClient.runJob()方法来提交Job,但是现在大多用Job.wai ...
MapReduce编程job概念原理
在Hadoop中,每个MapReduce任务都被初始化为一个job,每个job又可分为两个阶段:map阶段和reduce阶段.这两个阶段分别用两个函数来表示.Map函数接收一个<key,valu ...
JStorm第一个程序WordCount详解
一.Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务 ...
开源分布式实时计算引擎 Iveely Computing 之 WordCount 详解(3)
WordCount是很多分布式计算中,最常用的例子,例如Hadoop.Storm,Iveely Computing也不例外.明白了WordCount在Iveely Computing上的运行原理,就很 ...

随机推荐

VS项目平台的x86,x64,Any CPU以及Debug和Release
引用链接:https://blog.csdn.net/zuguangboy/article/details/51509670
JAVA中Integer类型变量比较问题
今天在做实验的时候,发现了一个比较奇怪的问题:两个Integer型变量用==进行比较时,有时候能成功有时候不能成功.举个例子: 代码1: Integer l1 = 122; Integer l2 = ...
python写xml及几个问题
python写xml的库和用法几个问题: 1.乱码问题设写入UTF-8编码 write函数增加encoding='utf-8' 2.空元素xml节点简写及完整写 write函数增加 short_e ...
Solr[Q] -No live SolrServers available to handle this request, no servers hosting shard
No live SolrServers available to handle this request , no servers hosting shard 当某一片索引对应的结点全部宕了以后,会报 ...
Javascript之类型转换（二）
前言类型转换js中主要有以下几种情况: 1.条件判断时: 2.对象转基本类型时: 3.四则运算时: 4.‘==’操作符比较值时: 5.比较运算符时. 一.条件判断时在条件判断时,除了 undefi ...
maven（一基本操作命令标签）
原来一直没有使用maven 小公司,只是听说过这个东西,我没事就喜欢去学习一些新东西.maven学了几次,但是没有用上所以最后还是忘记了,或者说不知道怎么使用maven,一年半以前公司改革 ...
Zabbix 更改监控项的应用级
加入域的计算机重定向到指定的OU
在我曾经呆过一个企业里,我们使用的是AD环境,计算机加入域时,我们需要使用一个单独的加域工具,里面有需要将计算机加入到指定OU的选项.所以每次加域我们都需要找个这个工具,实现加域过程.最后我发现其实最 ...
sed初学者实用说明
转自:http://www.codeweblog.com/sed%E5%88%9D%E5%AD%A6%E8%80%85%E5%AE%9E%E7%94%A8%E8%AF%B4%E6%98%8E/ ...
mono_image_open_from_data_with_name原型
mono4.5 https://github.com/Unity-Technologies/mono 查看mono源码: //PATH: /mono/metadata/image.c MonoImag ...

Mapperreduce的wordCount原理

Mapperreduce的wordCount原理的更多相关文章

随机推荐

热门专题