Map/Reduce 工作机制分析 --- 数据的流向分析

前言

　　在MapReduce程序中，待处理的数据最开始是放在HDFS上的，这点无异议。

　　接下来，数据被会被送往一个个Map节点中去，这也无异议。

　　下面问题来了：数据在被Map节点处理完后，再何去何从呢？

　　这就是本文探讨的话题。

Shuffle

　　在Map进行完计算后，将会让数据经过一个名为Shuffle的过程交给Reduce节点；

　　然后Reduce节点在收到了数据并完成了自己的计算后，会将结果输出到Hdfs。

　　那么，什么是Shuffle阶段，它具体做什么事情？

　　需要知道，这可是Hadoop最为核心的所在，也是号称“奇迹出现的地方“ = =#

Shuffle具体分析

　　首先，给出官方对于Shuffle流程的示意图：

　　Shuffle过程植入于Map端和Reduce端两边

　　1. Map端工作：

　　　　a. 分区：根据键值对的Key值，选定键值对所属的Partition区间(与Reduce节点对应)。

　　　　b. 排序：对各分区内的键值对根据键进行排序。

　　　　c. 分割：Map端的结果先是存放在缓冲区内的，如果超出，自然就要执行分割的处理，将一部分数据发往硬盘。

　　　　d. 合并：对于要发送往同一个节点的键值对，我们需要对它进行合并。(这一步很可能针对硬盘，对于海量数据处理，缓冲区溢出是很正常的事情)

　　2. Reduce端工作：

　　　　a. Copy：以HTTP的方式从指定的Map端拉数据，注意是Map端的本地磁盘。

　　　　b. 合并：一个Reduce节点有可能从多个Map节点获取数据，获取到之后

　　　　c. 排序：对各分区内的键值对根据键进行排序。和Map端操作一样。

小结

　　对于这部分的内容，以后有机会做Hadoop性能方面的工作时，会继续学习研究。

Map/Reduce 工作机制分析 --- 数据的流向分析的更多相关文章

第十篇：Map/Reduce 工作机制分析 - 数据的流向分析
前言在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议. 接下来,数据被会被送往一个个Map节点中去,这也无异议. 下面问题来了:数据在被Map节点处理完后,再何去何从呢? ...
Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
第九篇：Map/Reduce 工作机制分析 - 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Map/Reduce 工作机制分析 --- 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
第十一篇：Map/Reduce 工作机制分析 - 错误处理机制
前言对于Hadoop集群来说,节点损坏是非常常见的现象. 而Hadoop一个很大的特点就是某个节点的损坏,不会影响到整个分布式任务的运行. 下面就来分析Hadoop平台是如何做到的. 硬件故障硬件 ...
机器学习等知识--- map/reduce, python 读json数据。。。
map/ reduce 了解: 简单介绍map/reduce 模式: http://www.csdn.net/article/2013-01-07/2813477-confused-about-map ...
DataNode的工作机制
DataNode的工作机制一个数据块在DataNode以文件的形式在磁盘上保存,分为两个文件,一个是数据本身, 一个是元数据信息(包括数据的长度,校验和,时间戳) 1.DataNode启动后,向Na ...
Analyze Data 分析数据
In this lesson, you will learn how to add the Analysis functionality to your application. For this p ...
python数据处理（七）之数据探索和分析
1.探索数据 1.1 安装agate库 1.2 导入数据 1.3 探索表函数 a.排序 b.最值,均值 c.清除缺失值 d.过滤 e.百分比 1.4 连结多个数据集 a.捕捉异常 b.去重 c.缺失数 ...

随机推荐

我的android学习经历38
anddroid studio的内存修改昨天有位朋友问到了下面的一个问题这个判断为android studio的分配的内存不够用. 据我的了解造成这个的原因主要有以下几个方面: 1.电脑的内存本来 ...
Claims Identity
using System;using System.Collections.Generic;using System.Linq;using System.Security.Claims;using S ...
Scrum Meeting 9-20151211
任务安排姓名今日任务明日任务困难董元财请假(参加编译测试) 无胡亚坤首页界面优化无刘猛请假(参加编译测试) 无马汉虎请假(参加编译测试) 无赖彦俞请假(参加编译测试) 无 ...
GridFS图片
-----------2016-5-9 18:58:56-- source:GridFS实现图片的存取
手势抽取过程&代码复用
public abstract class BaseSetupActivity extends Activity { private GestureDetector gestureDetector; ...
services 文件
Services 文件列出了服务使用的标准端口号.可以向表中添加自己定义的项,来给自己的服务选择.(安装在Windows目录下的一个子目录中,取决于Windows版本) # Copyright (c) ...
转：已知2个整形数据a,b.不使用if,?:以及其他任何条件判断的语法，找出a跟b中数据的大者。
答案: int max(int a,int b){return (a+b+abs(a-b))/2;} 类似的请定义一个宏,比较两个数a.b的大小,不能使用大于.小于.if语句答案: #define ...
JVM 内存
大多数 JVM 将内存区域划分为 Method Area(Non-Heap)(方法区) ,Heap(堆) , Program Counter Register(程序计数器) , VM Stack( ...
linux -- 基于mysql tomcat 部署web项目
一.导入数据库二.配置web项目访问端口 vim /var/lib/tomcat8/conf/server.xml <Connector port=" protocol=" ...
ASP.NET jquery.uploadify上传控件中文乱码解决办法(转)
原文地址:http://blog.csdn.net/ningxi_/article/details/6234725 在一般处理程序上加上这几句话: context.Response.ContentTy ...

Map/Reduce 工作机制分析 --- 数据的流向分析

Map/Reduce 工作机制分析 --- 数据的流向分析的更多相关文章

随机推荐

热门专题