[hadoop]mapreduce原理简述

1、用于map的输入，先将输入数据切分成相等的分片，为每一个分片创建一个map worker,这里的切片大小不是随意订的，一般是与HDFS块大小一致，默认是64MB，一个节点上存储输入数据切片的最大size就是HDFS的块大小，当设置的切片size大于HDFS块大小，会引起节点之间的传输，占用带宽。

2、map worker调用用户编写的map函数对每个分片进行处理，并且将处理结果输出到本地存储（非HDFS）

3、对map的输出进行combiner操作，这里的的combiner主要是减少map与reduce之间的数据传输量，不是必须的步骤，可以例举一个《hadoop： the definitive guide》中的例子求最大温度的处理。

　　Fir Map Output:

　　　　(1950, 0)

　　　　(1950, 20)

　　　　(1950, 10)

　　Sec Map Output:

　　　　(1950, 25)

　　　　(1950, 15)

在不调用combiner的情况下，是将map的输出数据都将传送到reduce那里，在reduce处理时，将会将如下数据作为输入：

　　　　(1950, [0, 20, 10, 25, 15])

在调用combiner的情况下，现在每个map本地对输出数据进行处理(即将当前的map的最大温度求出)，然后再传输给reduce,如下：

　　Fir Map Combined:

　　　　(1950, 20)

　　Sec Map Combined:

　　　　(1950, 25)

而此时reduce将会用如下数据作为输入，从而map与reduce之间的数据传输量得到降低：

　　　　(1950, [20, 25])

4、将combiner处理后的数据或者map的输出数据进行shuffle处理，所谓的shuffle处理是将数据中的记录通过partition操作映射到reduce中，从而保证每个reduce处理的是相同key的记录。注意partition函数可以进行自定义，也可以使用默认的partition函数，默认的partition是利用一个hash映射操作将相同key的记录映射到相同的reduce.

5、reduce调用用户定义的reduce函数对数据进行处理，输出存入HDFS。

[hadoop]mapreduce原理简述的更多相关文章

一起学Hadoop——MapReduce原理
一致性Hash算法. Hash算法是为了保证数据均匀的分布,例如有3个桶,分别是0号桶,1号桶和2号桶:现在有12个球,怎么样才能让12个球平均分布到3个桶中呢?使用Hash算法的做法是,将1 ...
Hadoop — MapReduce原理解析
1. 概述 Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默 ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop学习记录（4）|MapReduce原理|API操作使用
MapReduce概念 MapReduce是一种分布式计算模型,由谷歌提出,主要用于搜索领域,解决海量数据计算问题. MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce( ...
hadoop自带例子SecondarySort源码分析MapReduce原理
这里分析MapReduce原理并没用WordCount,目前没用过hadoop也没接触过大数据,感觉,只是感觉,在项目中,如果真的用到了MapReduce那待排序的肯定会更加实用. 先贴上源码 pac ...
hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
hadoop笔记之MapReduce原理
MapReduce原理 MapReduce原理简单来说就是,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce). 例子: 100GB的网站访问日志文件,找出访问次数最多的I ...
[Hadoop]浅谈MapReduce原理及执行流程
MapReduce MapReduce原理非常重要,hive与spark都是基于MR原理 MapReduce采用多进程,方便对每个任务资源控制和调配,但是进程消耗更多的启动时间,因此MR时效性不高.适 ...
04 MapReduce原理介绍
大数据实战(上) # MapReduce原理介绍大纲: * Mapreduce介绍 * MapReduce2运行原理 * shuffle及排序定义 * Mapreduce 最早是由googl ...

随机推荐

Redis内存回收:LRU算法
Redis技术交流群481804090 Redis:https://github.com/zwjlpeng/Redis_Deep_Read Redis中采用两种算法进行内存回收,引用计数算法以及LRU ...
oracle 取俩个字符串的差集
思路: --funcation RemoveSameStr(in_str,splitStr) ;用于去除重复值 ; SELECT b.memberid, RemoveSameStr(wm_concat ...
字符串拆分函数 func_splitstr
create type str_split is table of varchar2(4000) ; 1 CREATE OR REPLACE FUNCTION splitstr(p_string IN ...
call()方法和apply()方法
最近又遇到了JacvaScript中的call()方法和apply()方法,而在某些时候这两个方法还确实是十分重要的,那么就让我总结这两个方法的使用和区别吧. 1. 每个函数都包含两个非继承而来的方法 ...
validate效验规则
] } }, messages:{ name:{ required:"最少为2个字!" }, tel:{ required:"请填写手机号码!", isMobi ...
YARN的重启动问题：RM Restart/RM HA/Timeline Server/NM Restart
ResourceManger Restart ResourceManager负责资源管理和应用的调度,是YARN的核心组件,有可能存在单点失败的问题.ResourceManager Restart是使 ...
Ubuntu 12.04下LAMP环境搭建实录
方法一: 用tasksel可以方便安装dns server, lamp, kubuntu desktop, ubuntu desktop, xubuntu之类的软件包.这个软件在ubuntu serv ...
转载manifold learning一篇
我恨自己不干活儿,不过也没辙. 早晚要学习流形的,今天先转一篇文章,以后找不到就尿了. 我真羡慕数学系的人,╮(╯▽╰)╭. 发信人: Kordan (K&M), 信区: AI标题: do ...
URAL 1969. Hong Kong Tram
有一个trick就是没想到,枚举第二段时间后,要检测该火车能否继续跑一圈来判断,不能先检测前半圈能不能跑加进去后在检测后半段: // **** 部分不能放在那个位置: 最近代码导致的错误总是找不出,贴 ...
bzoj3203【sdoi2013】保护出题人
题目描述输入格式第一行两个空格隔开的正整数n和d,分别表示关数和相邻僵尸间的距离.接下来n行每行两个空格隔开的正整数,第i + 1行为Ai和 Xi,分别表示相比上一关在僵尸队列排头增加血量为Ai ...

[hadoop]mapreduce原理简述

[hadoop]mapreduce原理简述的更多相关文章

随机推荐

热门专题