一、MapReduce模型

1、MapReduce是大规模数据(TB级)计算的利器，Map和Reduce是它的主要思想，来源于函数式编程语言。

2、Map负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现Map和Reduce两个接口，即可完成TB级数据的计算。

3、常见的应用包括：日志分析和数据挖掘等数据分析应用。另外，还可以用于科学数据计算，如圆周率PI的计算等。

4、当我们提交一个计算作业时，MapReduce会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为主要目标就是把前面若干个Map的输出汇总到一起并输出。

二、MapReduce执行过程

1、Mapper任务的执行过程

每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析成很多的键值对，经过我们map方法处理后，转换为很多的键值对再输出。
把Mapper任务的运行过程分为六个阶段

-第一阶段是把输入文件按照一定的标准分片(InputSplit)，每个输入片的大小事固定的；

-第二阶段是对输入片中的记录按照一定的规则解析成键值对；

-第三阶段是调用Mapper类中的map方法；

-第四阶段是按照一定的规则对第三阶段输出的键值对进行分区；

-第五阶段是对每个分区中的键值对进行排序；

-第六阶段是对数据进行归纳处理，也就是Reduce处理。键相等的键值对会调用一次reduce方法。

2、Reduce任务的执行过程

每个Reduce任务是一个java进程，Reduce任务接收Mapper任务的输出，规约处理后写入到HDFS中。
Reduce执行过程分为三个阶段

-第一阶段是Reduce任务会主动从Mapper任务复制其输出的键值对。Mapper任务可能会有很多，因此Reduce会复制多个Mapper的输出；

-第二阶段是把复制到Reduce本地数据，全部进行合并，即吧分散的数据合并成一个大的数据。再对合并后的数据排序；

-第三阶段是对排序后的键值对调用reduce方法，键相等的键值对调用一次reduce方法，每次调用会产生零个或者多个键值对，最后把这些输出的键值对写入到HDFS文件中。

MapReduce介绍的更多相关文章

大数据开发 | MapReduce介绍
1. MapReduce 介绍 1.1MapReduce的作用假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展 ...
hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
云小课｜MRS基础原理之MapReduce介绍
阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说).深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云.更多精彩内容请单击此处. 摘要:MapReduce ...
MongoDB中的MapReduce介绍与使用
一.简介在用MongoDB查询返回的数据量很大的情况下,做一些比较复杂的统计和聚合操作做花费的时间很长的时候,可以用MongoDB中的MapReduce进行实现 MapReduce是个非常灵活和强大 ...
MongoDB中MapReduce介绍与使用
一.简介在用MongoDB查询返回的数据量很大的情况下,做一些比较复杂的统计和聚合操作做花费的时间很长的时候,可以用MongoDB中的MapReduce进行实现 MapReduce是个非常灵活和强大 ...
2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式
把我们的简单运算逻辑,很方便地扩展到海量数据的场景下,分布式运算. Map作一些,数据的局部处理和打散工作. Reduce作一些,数据的汇总工作. 这是之前的,weekend110的hdfs输入流之源 ...
04 MapReduce原理介绍
大数据实战(上) # MapReduce原理介绍大纲: * Mapreduce介绍 * MapReduce2运行原理 * shuffle及排序定义 * Mapreduce 最早是由googl ...
MongoDB 的 MapReduce 大数据统计统计挖掘
MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法: * Mongodb三种分组方式 ...
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...

随机推荐

hbm配置文件 generator节点各种解释
今天犯了个错误 generator节点class属性有这么几个值(主键生成策略方案): assigned:由用户指定主键值 sequence:由oracle序列生成 increment:对类型为lon ...
html/CSS基础知识回顾
html部分块级元素: 一般用来搭建网站架构,布局,装载内容...像这些大体力的活都属于块级元素.它包括以下标签: address,blockquote,center,dir, div, dl, d ...
docker部署tomcat
一.环境简介宿主机版本:ubuntu-14.04.3-server-amd64.iso JDK版本:jdk-7u76-linux-x64.tar.gz TOMCAT版本:apache-tomcat- ...
zoj3430Detect the Virus(ac自动机）
链接解码之后是跟普通的自动机求解一下的,只不过解码比较恶心,512=>N>=0 ,所以不能用字符串来存,需要转换成整数来做. #include <iostream> #inc ...
Appium自动化测试1 - 安装部署
主要参考文章“虫师”自动化部署教程,不过结合自己的一些情况记录此博客~ 1.准备安装包 1)jdk; 下载及安装过程省略,我下载的是jdk1.7版本. 2) adt&SDK; SDK下载的是e ...
java高薪之路__004_泛型
参考地址: 1. http://www.cnblogs.com/lwbqqyumidi/p/3837629.html2. http://www.cnblogs.com/abcwt112/p/47350 ...
Hbase之修改表结构
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...
[ubuntu14.04 amd64 ]搜狗拼音輸入法安裝
这个网址下载之后,双击下载的deb文件http://mirrors.sohu.com/deepin/pool/non-free/f/fcitx-sogoupinyin-release/ 就会在ubun ...
【转】十分钟搞定pandas
原文链接:http://www.cnblogs.com/chaosimple/p/4153083.html 关于pandas的入门介绍,比较全,也比较实在,特此记录~ 还有关于某同学的pandas学习 ...
MySQL drop、delete和truncate的区别
注意:这里说的delete是指不带where子句的delete语句相同点 truncate和不带where子句的delete, 以及drop都会删除表内的数据不同点: 1. truncate和 d ...

MapReduce介绍

一、MapReduce模型

二、MapReduce执行过程

MapReduce介绍的更多相关文章

随机推荐

热门专题