Hadoop MapReduce的Shuffle过程

一、概述

理解Hadoop的Shuffle过程是一个大数据工程师必须的，笔者自己将学习笔记记录下来，以便以后方便复习查看。

二、

MapReduce确保每个reducer的输入都是按键排序的。系统执行排序、将map输出作为输入传给reducer的过程称为Shuffle。

2.1 map端

map函数开始产生输出时，利用缓冲的方式写到内存并排序具体分一下几个步骤。

1.map数据分片：把输入数据源进行分片，根据分片来决定有多少个map，每个map任务都有一个环形内存缓冲区用于存储任务输出，默认情况下缓冲区大小为100MB,可通过mapreduce.task.io.sort.mb来调整。

2.map排序：当map缓冲区大小达到阈值时（mapreduce.map.sort.spill.percent），就会将内存的数据溢写到磁盘，根据reducer的来划分成相应的partition，在内存中按键值进行排序，如果有combiner函数，在排序后就会应用，排序后写入分区磁盘文件中。溢写的过程中，map会阻塞直到写磁盘过程完成。每次内存缓冲区到达溢出阈值，就会新建一个溢出文件件，在map写完最后一个输出记录之后，会有几个溢出文件，在任务完成之前溢出文件会被合并成一个已分区且已经排序的输出文件。mapreduce.task.io.sort.factor控制着一次最多能合并多少溜，默认10。mapreduce.map.output.compress进行压缩，提高写磁盘速度。

2.2reduce端

1.reduce复制：reducer通过http得到输出文件的分区，用于文件分区的工作线程数量由任务的mapreduce.shuffle.max.threads属性控制。每个map任务的完成时间不同，在每个任务完成时，reduce任务就开始复制其输出，这就是reduce任务的复制阶段，reduce的复制线程数量mapreduce.reduce.shuffle.parallelcopies决定。

复制详解：如果map输出很小，会被复制到reduce任务JVM的内存，否则输出被复制到磁盘。如果内存缓冲区达到阈值大小(mapreduce.reduce.shuffle.merge.percent)或达到map输出阈值（mapreduce.reduce.merge.inmem.threshold）,则合并溢出写到磁盘中，如果指定combiner，则在合并期间运行它。随着磁盘上副本增多，后台线程会将他们合并为更大的，排序的文件。

2.reduce合并排序：这个阶段合并map输出，维持其顺序排序，这是循环进行的，如果有50个map输出，合并因子是10（mapreduce.task.io.sort.factor），合并将进行5次，最后有5个中间文件。

3.reduce：直接把数据输入reduce函数，从而省略了一次磁盘的往返行程。

至此mapreduce过程完毕，具体参考Hadoop权威指南第四版。

Hadoop MapReduce的Shuffle过程的更多相关文章

Hadoop Mapreduce的shuffle过程详解
1.map task读取数据时默认调用TextInputFormat的成员RecoreReader,RecoreReader调用自己的read()方法,进行逐行读取,返回一个key.value; 2. ...
MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一 ...
Hadoop学习之shuffle过程
转自:http://langyu.iteye.com/blog/992916,多谢分享,学习Hadopp性能调优的可以多关注一下 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方, ...
MapReduce：Shuffle过程详解
1.Map任务处理 1.1 读取HDFS中的文件.每一行解析成一个<k,v>.每一个键值对调用一次map函数. <0,hello you> & ...
Hadoop Mapreduce中shuffle 详解
MapReduce 里面的shuffle:描述者数据从map task 输出到reduce task 输入的这段过程 Shuffle 过程: 首先,map 输出的<key,value > ...
mapReduce的shuffle过程
http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程: map端的shuffle: (1)map端产生数据,放入内存buffer中: (2)buffer ...
MapReduce 的 shuffle 过程中经历了几次 sort ？
shuffle 是从map产生输出到reduce的消化输入的整个过程. 排序贯穿于Map任务和Reduce任务,是MapReduce非常重要的一环,排序操作属于MapReduce计算框架的默认行为,不 ...
Hadoop Mapreduce中wordcount 过程解析
将文件split 文件1: 分割结果: hello world ...
MapReduce的shuffle过程详解
[学习笔记] 结果分析:shuffle的英文是洗牌,混洗的意思,洗牌就是越乱越好的意思.当在集群的情况下是这样的,假如有三个map节点和三个reduce节点,一号reduce节点的数据会来自于三个ma ...

随机推荐

模拟实现 Tomcat 的核心模块：NIO，HTTP，容器和集群
如果你想看 Tomcat 源码但又无从入手,不妨从这个项目开始,代码量不多,但包含了 Tomcat 的核心处理流程,并且源码中有相当丰富的注释.相信通过此项目你能了解: NIO 基本编程.HTTP 协 ...
恢复云数据库MySQL的备份文件到自建数据库遇到的报错
报错信息 : 恢复云数据库MySQL的备份文件到自建数据库,自建数据库版本5.6.36. 按照阿里云文档操作,启动数据库报错 -- :: [ERROR] /application/mysql/bin/ ...
Python笔记【3】_元组学习
#!/usr/bin/env/python #-*-coding:utf-8-*- #Author:LingChongShi #查看源码Ctrl+左键 ''' tuple:以圆括号“()”括起来,以“ ...
【HDU - 2102】A计划（bfs）
-->A计划 Descriptions: 可怜的公主在一次次被魔王掳走一次次被骑士们救回来之后,而今,不幸的她再一次面临生命的考验.魔王已经发出消息说将在T时刻吃掉公主,因为他听信谣言说吃公主的 ...
Coderforces 633D：Fibonacci-ish（map+暴力枚举）
http://codeforces.com/problemset/problem/633/D D. Fibonacci-ish Yash has recently learnt about the ...
MySQL数据库设计与开发规范
目录 1. 规范背景与目的 2. 设计规范 2.1. 数据库设计 2.1.1. 库名 2.1.2. 表结构 2.1.3. 列数据类型优化 2.1.4. 索引设计 2.1.5. 分库分表.分区表 2.1 ...
什么是Task
什么是Task Task是.Net4.0新增用来处理异步编程的,叫做基于“任务编程模型”,任务其实是架构在线程之上的,具体操作的时候还是由线程去执行的,任务的管控有点类似于线程池,程序中开10个Tas ...
剑指offer第二版-5.替换空格
面试题5:替换空格题目要求: 实现一个函数,把字符串中的每个空格都替换成“%20”,已知原位置后面有足够的空余位置,要求改替换过程发生在原来的位置上. 思路: 首先遍历字符串求出串中空格的数量,求出 ...
python爬虫笔记之爬取足球比赛赛程
目标:爬取某网站比赛赛程,动态网页,则需找到对应ajax请求(具体可参考:https://blog.csdn.net/you_are_my_dream/article/details/53399949 ...
seleniumGrid分布式远程执行测试脚本
执行UI自动化测试脚本时,不仅可以在本地执行,也可以远程指定某计算机执行测试脚本,seleniumGrid为我们提供了这类服务,但还需要自己搭建环境. 一.本地计算机需要准备java环境和seleni ...

Hadoop MapReduce的Shuffle过程

一、概述

Hadoop MapReduce的Shuffle过程的更多相关文章

随机推荐

热门专题