MapReduce运行原理

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总”。

MapReduce架构

先来看一下MapReduce1.0的架构图

上图中的TaskTracker对应HDFS中的DataNode，

在MapReduce1.x中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker;另一个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。

流程分析

在客户端启动任务，客户端向JobTracker请求一个Job ID。
将运行任务所需要的程序文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该任务创建的文件夹中。文件夹名Job ID。
JobTracker接收到任务后，将其放在一个队列里，等待调度器对其进行调度，当作业调度器根据自己的调度算法调度到该任务时，会根据输入划分信息创建N个map任务，并将map任务分配给N个TaskTracker(DataNode)执行。
map任务不是随随便便地分配给某个TaskTracker的，这里有个概念叫：数据本地化(Data-Local)。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地化。
TaskTracker每隔一段时间会给JobTracker发送一个Heartbeat(心跳)，告诉JobTracker它依然在运行，同时心跳中还携带着很多的信息，比如当前map任务完成的进度等信息。当JobTracker收到作业的最后一个任务完成信息时，便把该作业设置成“成功”。当JobClient查询状态时，它将得知任务已完成，便显示一条消息给用户。

以上是在客户端、JobTracker、TaskTracker的层次来分析MapReduce的工作原理的，下面我们再细致一点，从map任务和reduce任务的层次来分析分析吧。

MapReduce运行流程

以FinderCountApp为例，运行的详细流程图如下

1.split阶段

首先mapreduce会根据要运行的大文件来进行split，每个输入分片(input split)针对一个map任务，输入分片(input split)存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。输入分片(input split)往往和HDFS的block(块)关系很密切，假如我们设定HDFS的块的大小是64MB，我们运行的大文件是64x10M，mapreduce会分为10个map任务，每个map任务都存在于它所要计算的block(块)的DataNode上。

2.map阶段

map阶段就是程序员编写的map函数了，因此map函数效率相对好控制，而且一般map操作都是本地化操作也就是在数据存储节点上进行。本例的map函数如下：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

*

* KEYIN     即K1     表示行的偏移量

* VALUEIN     即V1     表示行文本内容

* KEYOUT     即K2     表示行中出现的单词

* VALUEOUT 即V2        表示行中出现的单词的次数，固定值1

*

*/

public class WCMapper extends Mapper<LongWritable,Text,Text,LongWritable> {

    @Override

    protected void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException {

        String str = value.toString();

        String[] strs = StringUtils.split(str,'');

        for(String s:strs) {

            context.write(new Text(s),new IntWritable(1));

        }

    }

}

根据空格切分单词，计数为1，生成key为单词，value为出现1次的map供后续计算。

3.shuffle阶段

shuffle阶段主要负责将map端生成的数据传递给reduce端，因此shuffle分为在map端的过程和在reduce端的执行过程。

先看map端：

map首先进行数据结果数据属于哪个partition的判断，其中一个partition对应一个reduce，一般通过key.hash()%reduce个数来实现。
把map数据写入到Memory Buffer(内存缓冲区)，到达80%阀值，开启溢写进磁盘过程，同时进行key排序，如果有combiner步骤，则会对相同的key做归并处理，最终多个溢写文件合并为一个文件。

reduce端：

reduce节点从各个map节点拉取存在磁盘上的数据放到Memory Buffer(内存缓冲区)，同理将各个map的数据进行合并并存到磁盘，最终磁盘的数据和缓冲区剩下的20%合并传给reduce阶段。

4.reduce阶段

reduce对shuffle阶段传来的数据进行最后的整理合并

/**

* KEYIN     即K2     表示行中出现的单词

* VALUEIN     即V2     表示出现的单词的次数

* KEYOUT     即K3     表示行中出现的不同单词

* VALUEOUT 即V3     表示行中出现的不同单词的总次数

*/

public class WCReducer extends Reducer<Text,LongWritable,Text,LongWritable> {

    @Override

    protected void reduce(Text key,IterableIntWritable values,Context context)throws IOException,InterruptedException {

        int sum = 0;

        for(IntWritable i:values) {

            sum+ = i.get();

        }

        context.write(key,new IntWritable(sum));

    }

}

编写代码，实现文件中的单词个数统计

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class FinderCountApp {

    //封装mapreduce作业所有信息

    public static void main(String[] args) throws Exception {

        //创建Configuration

        Configuration configuration = new Configuration();

        //准备/清理环境

        Path outputPath = new Path(args[1]);

        FileSystem fs = FileSystem.get(configuration);

        if (fs.exists(outputPath)){

            fs.delete(outputPath,true);

        }

        //创建job,wordcount是job的名称

        Job job =Job.getInstance(configuration,"wordcount");

        //设置job处理类，就是主类

        job.setJarByClass(WCMapper.class);

        //处理数据，就必须有一个输入路径，第一个参数job的名称，第二个参数是Path

        FileInputFormat.setInputPaths(job,new Path(args[0]));//设置作业处理的路径

        //设置map相关的

        job.setMapperClass(MyMapper.class);//设置MyMapper.class

        job.setOutputKeyClass(Text.class);//设置map输出key的类型，是Text

        job.setMapOutputValueClass(LongWritable.class);//设置map输出的value的类型

        //设置reduce相关的

        job.setReducerClass(WCReducer.class);//设置MyReduce.class

        job.setOutputKeyClass(Text.class);//设置reduce输出key的类型，是Text

        job.setMapOutputValueClass(LongWritable.class);//设置reduce输出的value的类型

        //设置作业处理的输出路径

        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        boolean result = job.waitForCompletion(true);//把作业提交

        System.exit(result ? 0 : 1);//0就是true

    }

}

MapReduce的优缺点

优点：

易于编程;
良好的扩展性;
高容错性;

4.适合PB级别以上的大数据的分布式离线批处理。

缺点：

难以实时计算(MapReduce处理的是存储在本地磁盘上的离线数据)
不能流式计算(MapReduce设计处理的数据源是静态的)
难以DAG计算MapReduce这些并行计算大都是基于非循环的数据流模型，也就是说，一次计算过程中，不同计算节点之间保持高度并行，这样的数据流模型使得那些需要反复使用一个特定数据集的迭代算法无法高效地运行。

MapReduce运行原理的更多相关文章

MapReduce运行原理和过程
原文一．Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源.文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的. 1.分片我们将这一个个bl ...
【原创】MapReduce运行原理和过程
一．Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源.文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的. 1.分片我们将这一个个block ...
Hadoop 2.6 MapReduce运行原理详解
市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习. 我们通过提交jar包, ...
mapreduce运行原理及YARN
mapreduce1回顾 mapreduce1的不足 yarn的基本架构 yarn工作流程
MapReduce on Yarn运行原理
一.概念综述 MapReduce是一种可用于数据处理的编程模型(或计算模型),该模型可以比较简单,但想写出有用的程序却不太容易.MapReduce能将大型数据处理任务分解成很多单个的.可以在服务器集群 ...
MapReduce工作原理讲解
第一部分:MapReduce工作原理 MapReduce 角色•Client :作业提交发起者.•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业.•TaskT ...
【转载】Spark系列之运行原理和架构
参考 http://www.cnblogs.com/shishanyuan/p/4721326.html 1. Spark运行架构 1.1 术语定义 lApplication:Spark Applic ...
MapReduce工作原理
第一部分:MapReduce工作原理 MapReduce 角色•Client :作业提交发起者.•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业.•Tas ...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程：MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...

随机推荐

Spring 3整合Quartz 2实现定时任务三：动态暂停恢复修改和删除任务
前面我们已经完成了spring 3和quartz 2的整合以及动态添加定时任务,我们接着来完善它,使之能支持更多的操作,例如暂停.恢复.修改等. 在动态添加定时任务中其实已经涉及到了其中的一些代码,这 ...
Condition Variables
Condition Variables Condition variables are synchronization primitives that enable threads to wait u ...
windows上的Qt 5的依赖部署打包
通常我们编译Qt程序的时候最终会生成exe或dll,这些可执行文件都会有Qt模块的依赖,如果项目一旦庞大,就不是很好看出缺了什么模块,导致安装包安装到其他绿色干净的windows机器上会提示缺少XXX ...
java.lang.NullPointerException 空指针异常问题
java.lang.NullPointerException 空指针异常问题: 空指针异常抛出的异常信息一般是: Exception in thread "main" java.l ...
YAML 语言教程(转载)
用YAML语言读取配置是最快的,之前的suricata中用yaml读取了配置,并且在代码运行期间,对配置进行了维护,所以抽点时间,来了解一下YAML语言编程,下文虽然对YAML语言和JAVAScrip ...
树莓派进阶之路 (032) -字符问题（2） - 用c语言怎样得到一个汉字的GB2312编码(转)
C/C++支持的是ASCII,不过汉字编码中,GB2312与ASCII是兼容的,所以可以在C中获得汉字的GB2312编码 GB2312是两个字节的,第一字节是高八位,第二字节是低八位,比如下面的程序: ...
XSS安全处理
Security.class.php文件 <?php class Security { public $filename_bad_chars = array( '../', '<!--', ...
收集一些常用Javascripot
获取一组单选框当前选择值: $("input[name='radGende']:checked").val();
C# WinForm给Button或其它控件添加快捷键响应
今天做东西遇到要给按钮添加快捷键.就在这介绍三种添加快捷键的方式. 第一种Alt + *(按钮快捷键) 在大家给button.label.menuStrip等控件设置Text属性时在名字后边加& ...
在iOS开发的Quartz2D使用中实现图片剪切和截屏功能
原文 http://www.jb51.net/article/75671.htm 图片剪切一.使用Quartz2D完成图片剪切1.把图片显示在自定义的view中先把图片绘制到view上.按照原始大小 ...

MapReduce运行原理

MapReduce运行原理的更多相关文章

随机推荐

热门专题