shuffle过程简介--笔记

数据保存在hdfs上

拿到数据后分片处理

输入到Map

输出键值对

写到缓存，满的时候溢写到磁盘

缓存的数据写入磁盘的过程中，分区排序，合并

多个磁盘文件归并

通知Reduce任务拉取

Map端的shuffle

1输入数据和执行任务：

分片后分配Map任务，每个任务分配100M缓存

2写入缓存

在溢写过程中：

3溢写溢写比达到0.8后启动溢写进程，把缓存写入到磁盘

分区：默认采用哈希函数

排序：默认操作

合并：可能发生（Combine），减少键值对数量

4文件归并：

在Map任务结束前进行归并

归并得到一个打文件，放在本地磁盘

如果溢写文件大于3时启动Combine操作

Reduce端的Shuffle任务

1Reduce从Map任务中拉取数据到本地

2先归并再合并，写入磁盘

3多个溢写文件归并成一个或多个大文件，文件中的键值对是排序的

4当文件很少的时候，不需要溢写，直接在缓存中归并，然后输出给Reduce

shuffle过程简介--笔记的更多相关文章

Hadoop学习笔记—10.Shuffle过程那点事儿
一.回顾Reduce阶段三大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就 ...
MapReduce Shuffle过程
MapReduce Shuffle 过程详解一.MapReduce Shuffle过程 1. Map Shuffle过程 2. Reduce Shuffle过程二.Map Shuffle过程 1. ...
MapReduce shuffle过程剖析及调优
MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的.数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问 ...
Hadoop MapReduce的Shuffle过程
一.概述理解Hadoop的Shuffle过程是一个大数据工程师必须的,笔者自己将学习笔记记录下来,以便以后方便复习查看. 二. MapReduce确保每个reducer的输入都是按键排序的.系统执行 ...
mapReduce的shuffle过程
http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程: map端的shuffle: (1)map端产生数据,放入内存buffer中: (2)buffer ...
MapReduce:详解Shuffle过程(转)
/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapRedu ...
MapReduce：详解Shuffle过程
Shuffle过程,也称Copy阶段.reduce task从各个map task上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定的阀值,则写到磁盘上,否则直接放到内存中. 官方的Shuffl ...
Hadoop_10_shuffle02_详解Shuffle过程【来源网络】推荐更为详细
网址:http://www.cnblogs.com/felixzh/p/4680808.html Shuffle过程,也称Copy阶段.reduce task从各个map task上远程拷贝一片数据, ...
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方.要想理解MapReduce, Shuffle是必须要了解的.我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑, ...

随机推荐

Opengl4.5 中文手册—C
索引 A B C D E F G H I J K L M N O P Q ...
AngularJS -- 提供者(Providers)
点击查看AngularJS系列目录转载请注明出处:http://www.cnblogs.com/leosx/ 每个Web应用程序都是有多个对象组合.协作来完成任务的.这些对象需要被实例化,并且连接在 ...
增大hadoop client内存
export HADOOP_CLIENT_OPTS="-Xmx512m $HADOOP_CLIENT_OPTS" 问题场景:sqoop import时报OOM
Hive基础（2）---（启动HiveServer2）Hive严格模式
启动方式 1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive –service cli 用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 ...
Java的类加载器
一.类加载器的概念类加载器(class loader)用来加载 Java 类到 Java 虚拟机中.一般来说,Java 虚拟机使用 Java 类的方式如下:Java 源程序(.java 文件)在经过 ...
http://codeforces.com/contest/610/problem/D
D. Vika and Segments time limit per test 2 seconds memory limit per test 256 megabytes input standar ...
python---time模块使用详解
python中的time模块提供一些方法用来进行关于时间的操作,time模块中有以下方法可供使用: time() --- 返回当前时间的时间戳. 调用:time.time(), 可用于计算程序运行的 ...
Nginx 1.10.1 版本nginx.conf优化配置及详细注释
Nginx 1.10.1 的nginx.conf文件,是调优后的,可以拿来用,有一些设置无效,我备注上了,不知道是不是版本的问题,回头查一下再更正. #普通配置 #==性能配置 #运行用户 user ...
HDU1403Longest Common Substring
明天写超时代码: #include<cstdio> #include<cstdlib> #include<iostream> #include<cstrin ...
HDU1142 A Walk Through the Forest（最短路+DAG）
A Walk Through the Forest Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/O ...

shuffle过程简介--笔记

shuffle过程简介--笔记的更多相关文章

随机推荐

热门专题