MapReduce框架组成

原文地址：MapReduce的架构组成

MapReduce基本架构

分而治之，并行计算

一句话 —— 整体主从架构，map加reduce；map、split入磁盘，数据对分partition；shuffle、sort、key-value，一个reduce解析一个partition。

一堆话 —— 如下：
和HDFS一样，MapReduce也是采用Master/Slave的架构，其架构如下图所示：

MapReduce包含四个组成部分，分别为Client，JobTracker，TaskTracker，Task
1. client客户端
每一个Job都会在用户端通过Client类将应用程序以及配置信息Configuration打包成Jar文件上传到HDFS，并把路径提交到JobTracker的master服务，然后由master创建每一个Task（即MapTask和ReduceTask），将它们分发到各个TaskTracker服务中去执行。

2. JobTracker
JobTracker负责资源监控和作业调度。JobTracker监控所有的TaskTracker与Job的健康状态，一旦发现失败，就将相应的任务转移到其他节点；同时JobTracker会跟踪任务的执行进度，资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在Hadoop中，任务调度器是一个可插拔的模块，用于可以根据自己的需要设计相应的调度器。

TaskTracker
TaskTracker是运行在多个节点上的slave服务。TaskTracker主动与JobTracker通信（与DataNode和NameNode相似，通过心跳来实现），会周期性地将本节点上资源使用情况和任务的运行进度汇报给JobTracker，同时执行JobTracker发送过来的命令并执行相应的操作（如启动新任务，杀死任务等）。TaskTracker使用"slot"等量划分本节点上的资源量。"slot"代表计算资源(cpu，内存等)。一个Task获取到一个slot之后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot分为MapSlot和ReduceSlot两种，分别提供MapTask和ReduceTask使用。TaskTracker通过slot数目（可配置参数）限定Task的并发度。

Task：
Task分为MapTask和ReduceTask两种，均由TaskTracker启动。HDFS以固定大小的block为基本单位存储数据，而对于MapReduce而言，其处理单位是split。split是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全有用户自己决定。但需要注意的是，split的多少决定了MapTask的数目，因为每一个split只会交给一个MapTask处理。spilt与block的关系如下图：

MapTask的执行过程如下图所示：由下图可知，Map Task先将对应的split迭代解析成一个key-value对，依次调用用户定义的map()函数进行处理，最终将临时结果存放到本地磁盘上。其中，临时数据被分成若干个partition，每个partition将被一个Reduce Task处理。

ReduceTask的执行过程如下图所示。该过程分为三个阶段：

从运程节点上读取Map Task中间结果（称为"Shuffle阶段"）
按照Key对Key-Value对进行排序（称为"Sort阶段"）
依次读取<key,value list>，调用用户自定义的Reduce函数处理，并将最终结果存到HDFS上（称为"Reduce阶段"）
过程如下图：

MapReduce框架组成的更多相关文章

Hadoop 之 MapReduce 框架演变详解
经典版的MapReduce 所谓的经典版本的MapReduce框架,也是Hadoop第一版成熟的商用框架,简单易用是它的特点,来看一幅图架构图: 上面的这幅图我们暂且可以称谓Hadoop的V1.0版本 ...
hadoop 学习笔记：mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop学习笔记：MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
更快、更强——解析Hadoop新一代MapReduce框架Yarn（CSDN）
摘要:本文介绍了Hadoop 自0.23.0版本后新的MapReduce框架(Yarn)原理.优势.运作机制和配置方法等:着重介绍新的Yarn框架相对于原框架的差异及改进. 编者按:对于业界的大数据存 ...
提升资源利用率的MapReduce框架
Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!.Facebook.淘宝.中移动.百度.腾讯等公司都在借助 Hadoop进行海量数据处理.Hadoop系统性能不仅取决于任务调 ...
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop 新 MapReduce 框架 Yarn 详解: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ Ap ...
mapreduce框架详解【转载】
[本文转载自:http://www.cnblogs.com/sharpxiajun/p/3151395.html] 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoo ...
mapreduce框架详解
hadoop 学习笔记:mapreduce框架详解开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感 ...
MapReduce框架Hadoop应用(一)
Google对其的定义:MapReduce是一种变成模型,用于大规模数据集(以T为级别的数据)的并行运算.用户定义一个map函数来处理一批Key-Value对以生成另一批中间的Key-Value对,再 ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...

随机推荐

BZOJ4105 [Thu Summer Camp 2015]平方运算【线段树】
题目链接 BZOJ4105 题解平方操作orz,虽说应该是线段树,但是不会维护啊QAQ 小瞧一眼题解... 平方成环?环长\(lcm\)小于\(60\)? 果然还是打表找规律题.... 那就很好做了 ...
洛谷P3178 [HAOI2015]树上操作（dfs序+线段树）
P3178 [HAOI2015]树上操作题目链接:https://www.luogu.org/problemnew/show/P3178 题目描述有一棵点数为 N 的树,以点 1 为根,且树点有边 ...
bzoj 1113 [Poi2008]海报PLA 单调栈
[Poi2008]海报PLA Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 1304 Solved: 896[Submit][Status][Dis ...
tomcat 访问400 的一种情况
tomcat 高版本对访问url做了较高的校验,如果url中包含特殊字符,tomcat会自动拦截,返回400错误.如果要包含特殊字符,需要事先进行转译. 我原来用的apache-tomcat-6.0. ...
南阳ACM 题目71：独木舟上的旅行 Java版
独木舟上的旅行时间限制:3000 ms | 内存限制:65535 KB 难度:2 描述进行一次独木舟的旅行活动,独木舟可以在港口租到,并且之间没有区别.一条独木舟最多只能乘坐两个人,且乘客的总 ...
Android之极光推送发送自定义消息
Android端实现主要代码: <span style="font-size:14px;">import java.io.IOException; import jav ...
mysql 联合索引匹配原则
读mysql文档有感看了mysql关于索引的文档,网上有一些错误的博客文档,这里我自己记一下. 几个重要的概念 1．对于mysql来说,一条sql中,一个表无论其蕴含的索引有多少,但是有且只用一条. ...
51Nod 1092 回文字符串 | 最长公共子序列变形
求字符串和其逆的最长公共子序列,需要添加的字符数就为长度-最长公共子序列长 #include "stdio.h" #include "string.h" #de ...
LightOJ 1093 - Ghajini 线段树
http://www.lightoj.com/volume_showproblem.php?problem=1093 题意:给定序列,问长度为d的区间最大值和最小值得差最大是多少. 思路:可以使用线段 ...
MyBatis框架的使用及源码分析(四) 解析Mapper接口映射xml文件
在<MyBatis框架中Mapper映射配置的使用及原理解析(二) 配置篇 SqlSessionFactoryBuilder,XMLConfigBuilder> 一文中,我们知道mybat ...

MapReduce框架组成

MapReduce基本架构

MapReduce框架组成的更多相关文章

随机推荐

热门专题