Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码

　　　　　　　　　　　　Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　　　本文主要是记录一写我在学习MapReduce时的一些琐碎的学习笔记，方便自己以后查看。在调用API的时候，可能会需要maven依赖，添加依赖的包如下：

 <?xml version="1.0" encoding="UTF-8"?>

 <project xmlns="http://maven.apache.org/POM/4.0.0"

          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <parent>

         <artifactId>HADOOP</artifactId>

         <groupId>yinzhengjie.org.cn</groupId>

         <version>1.0-SNAPSHOT</version>

     </parent>

     <modelVersion>4.0.0</modelVersion>

     <artifactId>MapReduce</artifactId>

     <dependencies>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-client</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>junit</groupId>

             <artifactId>junit</artifactId>

             <version>4.11</version>

             <scope>test</scope>

         </dependency>

     </dependencies>

 </project>

一.MapReduce定义
　　Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。
　　Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。

二.MapReduce优点
1>.MapReduce 易于编程。
　　它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。
2>.良好的扩展性。
　　当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
3>.高容错性。
　　MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop内部完成的。
4>.适合PB级以上海量数据的离线处理。
　　它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce很难做到。

三.MapReduce缺点
　　MapReduce不擅长做实时计算、流式计算、DAG（有向图）计算。
1>.实时计算。
　　MapReduce无法像Mysql一样，在毫秒或者秒级内返回结果。
2>.流式计算。
　　流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
3>.DAG（有向图）计算。
　　多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

四.MapReduce进程

　　一个完整的mapreduce程序在分布式运行时有三类实例进程：
1>.MrAppMaster：
　　负责整个程序的过程调度及状态协调。
2>.MapTask：
　　负责map阶段的整个数据处理流程。
3>.ReduceTask：
　　负责reduce阶段的整个数据处理流程。

五.MapReduce编程规范
　　用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端)
1>.Mapper阶段
　　（1）用户自定义的Mapper要继承自己的父类
　　（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）
　　（3）Mapper中的业务逻辑写在map()方法中
　　（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）
　　（5）map()方法（maptask进程）对每一个<K,V>调用一次
2>.Reducer阶段
　　（1）用户自定义的Reducer要继承自己的父类
　　（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
　　（3）Reducer的业务逻辑写在reduce()方法中
　　（4）Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法
3>.Driver阶段
　　整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象

六.Hadoop序列化
1>.为什么要序列化？
　　一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。
2>.什么是序列化？
　　序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
　　反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
3>.为什么不用Java的序列化？
　　ava的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。
4>.为什么序列化对Hadoop很重要？
　　因为Hadoop在集群之间进行通讯或者RPC调用的时候，需要序列化，而且要求序列化要快，且体积要小，占用带宽要小。所以必须理解Hadoop的序列化机制。
　　序列化和反序列化在分布式数据处理领域经常出现：进程通信和永久存储。然而Hadoop中各个节点的通信是通过远程调用（RPC）实现的，那么RPC序列化要求具有以下特点：
　　　　（1）紧凑：紧凑的格式能让我们充分利用网络带宽，而带宽是数据中心最稀缺的资
　　　　（2）快速：进程通信形成了分布式系统的骨架，所以需要尽量减少序列化和反序列化的性能开销，这是基本的；
　　　　（3）可扩展：协议为了满足新的需求变化，所以控制客户端和服务器过程中，需要直接引进相应的协议，这些是新协议，原序列化方式能支持新的协议报文；
　　　　（4）互操作：能支持不同语言写的客户端和服务端进行交互；
　　　　（5）.常用数据序列化类型
5>.常用的数据类型对应的hadoop数据序列化类型

七.MapReduce案例实操

1>.编写mapper类

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package mapreduce.yinzhengjie.org.cn;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

     Text k = new Text();

     IntWritable v = new IntWritable(1);

     @Override

     protected void map(LongWritable key, Text value, Context context)

             throws IOException, InterruptedException {

         // 1 获取一行

         String line = value.toString();

         // 2 切割

         String[] words = line.split(" ");

         // 3 输出

         for (String word : words) {

             k.set(word);

             context.write(k, v);

         }

     }

 }

2>.编写Reduce类

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package mapreduce.yinzhengjie.org.cn;

 import java.io.IOException;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

     @Override

     protected void reduce(Text key, Iterable<IntWritable> value,

                           Context context) throws IOException, InterruptedException {

         // 1 累加求和

         int sum = 0;

         for (IntWritable count : value) {

             sum += count.get();

         }

         // 2 输出

         context.write(key, new IntWritable(sum));

     }

 }

3>.编写驱动类

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package mapreduce.yinzhengjie.org.cn;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WordcountDriver {

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

         /**

          *   配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，

          * 还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

          *

          */

             System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

         //获取配置信息

         Configuration conf = new Configuration();

         Job job = Job.getInstance(conf);

         //设置jar加载路径

         job.setJarByClass(WordcountDriver.class);

         //设置map和Reduce类

         job.setMapperClass(WordcountMapper.class);

         job.setReducerClass(WordcountReducer.class);

         //设置map输出

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         //设置Reduce输出

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         //设置输入和输出路径

         FileInputFormat.setInputPaths(job, new Path(args[0]));

         FileOutputFormat.setOutputPath(job, new Path(args[1]));

         //等待job提交完毕

         boolean result = job.waitForCompletion(true);

         System.exit(result ? 0 : 1);

     }

 }

八.本地测试

1>.在代码中配置HADOOP_HOME的环境变量

  System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

2>.在resources目录下生成"log4j.properties"配置文件

log4j.rootLogger=${hadoop.root.logger}

hadoop.root.logger=INFO,console

log4j.appender.console=org.apache.log4j.ConsoleAppender

log4j.appender.console.target=System.err

log4j.appender.console.layout=org.apache.log4j.PatternLayout

log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{}: %m%n

3>.点击驱动类的配置文件，如下图的"Edit Configurations...."

4>.编辑“Program arguments”的输入和输出路径（注意，输入路径必须存在，输出路径的目录必须不存在！）

Apache Hive is an open source project run by volunteers at the Apache Software Foundation.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

Use Apache HBase when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very

large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable: A Distributed Storage System for Structured Data by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, Apache HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

Apache Spark is a unified analytics engine for large-scale data processing.

D:\yinzhengjie\data\hello.txt 文件内容戳我！！！！

5>.运行“WordcountDriver.java”程序

6>.查看输出的结果

九.集群测试

1>.删除代码中指定的Windows中HADOOP_HOME的代码，并点击当前模块的设置，即下图中的“Open Module Setting”。

2>.添加"Artifacts"

3>.选择jar，点击“From modules with dependencies....”

4>.选择需要打包的Module和Main Class

5>.完成配置

6>.点击菜单栏的“Build”标签，选择“Build Artifacts...”

7>.点击Build

8>.找到咱们刚刚编译好的jar包，将其上传到hdfs集群中。

9>.将测试文件上传至hdfs集群中

[root@node105 ~]# hdfs dfs -put hello.txt /yinzhengjie/data/

10>.运行我们自己编译好的jar包

[root@node105 ~]# hadoop jar MapReduce.jar  mapreduce.yinzhengjie.org.cn.WordcountDriver /yinzhengjie/data/hello.txt /yinzhengjie/data/output

11>.查看输出的结果

Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码的更多相关文章

Hadoop基础-MapReduce的工作原理第一弹
Hadoop基础-MapReduce的工作原理第一弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在本篇博客中,我们将深入学习Hadoop中的MapReduce工作机制,这些知识 ...
Hadoop基础-MapReduce的Combiner用法案例
Hadoop基础-MapReduce的Combiner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编写年度最高气温统计如上图说所示:有一个temp的文件,里面存放 ...
Hadoop基础-MapReduce的常用文件格式介绍
Hadoop基础-MapReduce的常用文件格式介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MR文件格式-SequenceFile 1>.生成SequenceF ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...
Hadoop基础-MapReduce的工作原理第二弹
Hadoop基础-MapReduce的工作原理第二弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Split(切片) 1>.MapReduce处理的单位(切片) 想必 ...
Hadoop基础-MapReduce的Join操作
Hadoop基础-MapReduce的Join操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.连接操作Map端Join(适合处理小表+大表的情况) no001 no002 ...
Hadoop基础-MapReduce的数据倾斜解决方案
Hadoop基础-MapReduce的数据倾斜解决方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据倾斜简介 1>.什么是数据倾斜答:大量数据涌入到某一节点,导致 ...
Hadoop基础-MapReduce的Partitioner用法案例
Hadoop基础-MapReduce的Partitioner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Partitioner关键代码剖析 1>.返回的分区号 ...
自定义编写jmeter的Java测试代码
我们在做性能测试时,有时需要自己编写测试脚本,很多测试工具都支持自定义编写测试脚本,比如LoadRunner就有很多自定义脚本的协议,比如"C Vuser","JavaV ...

随机推荐

上传第三方jar包至maven私服，以geotools为例
上传jar包(模块打包方式为jar) mvn deploy:deploy-file -DgroupId=org.geotools -DartifactId=gt-api -Dversion=10.3 ...
ContOS 常用命令
文件与目录操作命令解析 cd /home 进入 ‘/home’ 目录 cd .. 返回上一级目录 cd ../.. 返回上两级目录 cd - 返回上次所在目录 cp file1 file2 将fi ...
cordova window error
npm install -g cordova --save ; ------------------------- error: deprecated node-uuid@1.4.7: use uui ...
Swarm平滑升级回滚
#滚动更新创建服务: docker service create --name my_web --replicas=5 nginx:1.12更新为1.14 docker service update ...
【算法】php计算数字k在一段数字范围出现的次数
计算数字k在0到n中的出现的次数,k可能是[0~9]内的一个值. 例如数字n=25,k=1,在1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ...
Centos 6.x/7.x yum安装php5.6.X
鉴于Centos 默认yum源的php版本太低了,手动编译安装又有点一些麻烦,那么如何采用Yum安装的方案安装最新版呢.那么,今天我们就来学习下如何用yum安装php最新版. 1.检查当前安装的PHP ...
分考场（无向图着色问题）（dfs回溯）
问题描述 n个人参加某项特殊考试. 为了公平,要求任何两个认识的人不能分在同一个考场. 求是少需要分几个考场才能满足条件. 输入格式第一行,一个整数n(1<n<100),表示参加考试的人 ...
deque双端队列容器
//deque双端队列容器 //deque双端队列容器与vector一样,采用线性表顺序存储结构,但与vector不同的是, //deque采用的分块线性存储结构来存储数据,每块的大小一般为512字节 ...
Linux系统状态监控小工具 - Linux Dash
Linux Dash是一个简单易用的Linux系统状态监控工具,项目地址:https://github.com/afaqurk/linux-dash 1.安装Apache服务: [root@local ...
bzoj4842 Delight for a Cat
题意:n天内你每天可以s或者e,分别有一定的收益. 每连续k天中s的天数要大于ds,e的天数要大于de,求最大收益. 解:费用流解线性规划. 先假设全部选e,然后一天s的收益为si - ei ai表示 ...

Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码

Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码的更多相关文章

随机推荐

热门专题