1.Wordcount示例编写:

  MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各

个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇总”

  需求:在一堆给定的文本文件中统计输出每一个单词出现的总次数

1.1.定义一个Mapper类:

package cn.gigdata.hdfs.mr;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/**
* 参数信息:
* 1.KEYIN: 默认情况下,是mr框架所读到的一行文本的起始偏移量,Long,在hadoop中用自己的序列化接口,不直接用Long,用LongWritable
*   2.VALUEIN:默认情况下,是mr框架所读到的一行文本的内容,String,同上,用String的序列化接口Text
* 3.KEYOUT:是用户自定义逻辑处理完成之后输出数据中的key,在此处是单词,String,同上,用Text
* 4.VALUEOUT:是用户自定义逻辑处理完成之后输出数据中的value,在此处是单词次数,Integer,同上,用IntWritable
* Map程序只写一份,但是可以被很多Map Task调用
*/ public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ /**
* map阶段的业务逻辑就写在自定义的map()方法中
* maptask会对每一行输入数据调用一次我们自定义的map()方法
*/
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //将maptask传给我们的文本内容先转换成String
String line = value.toString();
//根据空格将这一行切分成单词
String[] words = line.split(" "); //将单词输出为<单词,1>
for(String word:words){
//将单词作为key,将次数1作为value,以便于后续根据单词进行数据分发,以便于相同单词会到相同的reduce task
context.write(new Text(word), new IntWritable());
}
}
}

1.2.定义一个Reducer类:

package cn.gigdata.hdfs.mr;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
/**
* KEYIN, VALUEIN 对应 mapper输出的KEYOUT,VALUEOUT类型对应
* KEYOUT, VALUEOUT 是自定义reduce逻辑处理结果的输出数据类型: KEYOUT是单词 VLAUEOUT是总次数
*/
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
/**
* <angelababy,1><angelababy,1><angelababy,1><angelababy,1>
* <hello,1><hello,1><hello,1><hello,1><hello,1><hello,1>
* <banana,1><banana,1><banana,1><banana,1><banana,1><banana,1>
* 入参key,是一组相同单词kv对应的key(以组为单位调一次)reduce传key的时候传的是组中的第一个
*/ //生命周期:框架每传递进来一个kv 组,reduce方法被调用一次
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int count=0;
/*Iterator<IntWritable> iterator = values.iterator();
while(iterator.hasNext()){
count += iterator.next().get();
}*/ for(IntWritable value:values){ count += value.get();
}
context.write(key, new IntWritable(count));//默认将结果写入(HDFS)文件
}
}

1.3.定义一个主类,用来描述job并提交job:

package cn.gigdata.hdfs.mr;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
* 相当于一个yarn集群的客户端
* 需要在此封装我们的mr程序的相关运行参数,指定jar包
* 最后提交给yarn
* @author
*
*/
//定义一个主类,用来描述job并提交job
public class WordcountDriver {
//把业务逻辑相关的信息(哪个是mapper,哪个是reducer,要处理的数据在哪里,输出的结果放哪里……)描述成一个job对象
//把这个描述好的job提交给集群去运行
public static void main(String[] args) throws Exception { if (args == null || args.length == 0) {
args = new String[2];
args[0] = "hdfs://shizhan2:9000/wordcount/input/wordcount.txt";
args[1] = "hdfs://shizhan2:9000/wordcount/output8";
} Configuration conf = new Configuration(); Job job = Job.getInstance(conf); //指定本程序的jar包所在的本地路径
job.setJarByClass(WordcountDriver.class); //指定本业务job要使用的mapper/Reducer业务类
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordcountReducer.class); //指定mapper输出数据的kv类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class); //指定最终输出的数据的kv类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class); //指定job的输入原始文件所在目录
FileInputFormat.setInputPaths(job, new Path(args[0]));
//指定job的输出结果所在目录
FileOutputFormat.setOutputPath(job, new Path(args[1])); //将job中配置的相关参数,以及job所用的java类所在的jar包,提交给YARN集群中去运行
/*job.submit();*/
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}

1.4.MapReduce程序运行模式

1.4.1.本地运行模式

  (1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行

  (2)而处理的数据及输出结果可以在本地文件系统,也可以在hdfs上

  (3)怎样实现本地运行?写一个程序,不要带集群的配置文件(本质是你的mr程序的conf中是否有

mapreduce.framework.name=local以及yarn.resourcemanager.hostname参数)

  (4)本地模式非常便于进行业务逻辑的debug,只要在eclipse中打断点即可

     如果在windows下想运行本地模式来测试程序逻辑,需要在windows中配置环境变量:

     %HADOOP_HOME%  =  d:/hadoop-2.6.1

     %PATH% =  %HADOOP_HOME%\bin

     并且要将d:/hadoop-2.6.1的lib和bin目录替换成windows平台编译的版本

1.4.2.集群运行模式

  (1)将mapreduce程序提交给yarn集群resourcemanager,分发到很多的节点上并发执行

  (2)处理的数据和输出结果应该位于hdfs文件系统

  (3)提交集群的实现步骤:

     A、将程序打成JAR包,然后在集群的任意一个节点上用hadoop命令启动

      hadoop jar workcount.jar cn.gigdata.hdfs.mr.WordcountDriver /wordcount/input1 /wordcount/outputWord

      B、直接在linux的eclipse中运行main方法

      (项目中要带参数:mapreduce.framework.name=yarn以及yarn的两个基本配置)

     C、如果要在windows的eclipse中提交job给集群,则要修改YarnRunner类

1.5.MapReduce程序编程规范: 

  (1)用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)

  (2)Mapper的输入数据是KV对的形式(KV的类型可自定义)

  (3)Mapper的输出数据是KV对的形式(KV的类型可自定义)

  (4)Mapper中的业务逻辑写在map()方法中

  (5)map()方法(maptask进程)对每一个<K,V>调用一次

  (6)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV

  (7)Reducer的业务逻辑写在reduce()方法中

  (8)Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

  (9)用户自定义的Mapper和Reducer都要继承各自的父类

  (10)整个程序需要一个Drvier来进行提交,提交的是一个描述了各种必要信息的job对象

1.6.MapReduce程序在集群中运行时的大体流程:

  

  

 

Hadoop_15_MapRduce_案例1_Wordcount 单词统计的更多相关文章

  1. MapReduce 单词统计案例编程

    MapReduce 单词统计案例编程 一.在Linux环境安装Eclipse软件 1.   解压tar包 下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...

  2. ytu 2002:C语言实验——单词统计(水题)

    C语言实验——单词统计 Time Limit: 1 Sec  Memory Limit: 64 MBSubmit: 61  Solved: 34[Submit][Status][Web Board] ...

  3. 2、 Spark Streaming方式从socket中获取数据进行简单单词统计

    Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...

  4. hadoop笔记之MapReduce的应用案例(WordCount单词计数)

    MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数 作用: 计算文件中出现每个单词的频数 输入结果 ...

  5. hive学习之WordCount单词统计

    看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧.上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点.

  6. scala基本语法和单词统计

    scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...

  7. Storm基础概念与单词统计示例

    Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...

  8. 大数据学习——mapreduce程序单词统计

    项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...

  9. spark复习笔记(3):使用spark实现单词统计

    wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a. ...

随机推荐

  1. swift 第十四课 可视化view: @IBDesignable 、@IBInspectable

    以前应objctiew-c 写项目的时候,就知道有这两个关键字,现在用swift了.用法稍作改变,基本用法还是一致的 虽然使用这个之后,有时候会报错的非常的莫名其妙----(其实还是自己技术不够牛…… ...

  2. 【VS开发】winsock 错误多 windows.h和winsock2.h的顺序

    Windows平台下用C++做网络开发很多时候都会同时包含这两个头文件,如若顺序不当(windows.h先于winsock2.h)就会出现很多莫名其妙的错误.诸如: c:\program files ...

  3. 【编程开发】opencv实现对Mat中某一列或某一行的元素进行normalization

    [编程开发]opencv实现对Mat中某一列或某一行的元素进行normalization 标签: [编程开发] [机器学习] 声明:引用请注明出处http://blog.csdn.net/lg1259 ...

  4. ffmpeg学习笔记-Linux下编译Android动态库

    Android平台要使用ffmpeg就需要编译生成动态库,这里采用Ubuntu编译Android动态库 文件准备 要编译生成Android需要以下文件 NDK ffmpeg源代码 NDK下载 NDK可 ...

  5. Java学习笔记-内部类

    内部类在Android中有着大量的运用 内部类 内部类提供了更好的封装:内部类可以直接访问外部类的私有数据:匿名内部类适合那些只需要使用一次的类.非静态内部类不能拥有静态成员.内部类比外部类可以多使用 ...

  6. java_guide_类加载器

    类加载器总结 JVM 中内置了三个重要的 ClassLoader,除了 BootstrapClassLoader 其他类加载器均由 Java 实现且全部继承自java.lang.ClassLoader ...

  7. Goahead 编译

    目录 Goahead 目录说明 Ubuntu编译 交叉编译 方便测试 参考 title: Goahead date: 2019/11/6 09:45:01 toc: true --- Goahead ...

  8. elasticsearch基本概念理解+elasticsearch 的shards unassigned处理方法 -- 最佳运维实践 - 集群规划

    1.es与MySQL的概念对比 2.概念理解 2.1 Index : 一个索引即是文档的集合 2.2 Document : 一个文档即是一个可被索引的基础单元信息,一条记录: 2.3 Replicas ...

  9. C语言控制台软件制作

    本题要求你写个程序把给定的符号打印成沙漏的形状.例如给定17个“*”,要求按下列格式打印 ***** *** * *** ***** 所谓“沙漏形状”,是指每行输出奇数个符号:各行符号中心对齐:相邻两 ...

  10. C语言--单层循环结构

    一.PTA实验作业 题目1:最佳情侣身高 1.实验代码 int N, i; float height; char sex; printf("输入用户个数:\n"); scanf(& ...