hadoop MapReduce 工作机制

摸索了将近一个月的hadoop , 在centos上配了一个伪分布式的环境，又折腾了一把hadoop eclipse plugin,最后终于实现了在windows上编写MapReduce程序，在centos上可以执行。

关于环境的配置，网上很多，不再废话。

仅以此系列的博客记录学习过程中的点点滴滴。

##############################传说中的分割线#####################

学习了WordCount程序，也照着网上的某些文章，实现了一些简单的MapReduce程序，可是并没有很好的总结出来如何用hadoop 写 MapReduce 程序，太多的类和接口，用起来并不顺手。终于，回过头来再仔细品品hadoop的MapReduce工作机制，做一次整体的把握。

MapReduce工作执行涉及到四个实体：

1. Client：编写MapReduce程序，配置job,提交job。

2. JobTracker：初始化作业，分配作业，与TaskTracker通信，协调整个作业的执行。

3. TaskTrack：执行Map任务和Reduce任务，与JobTracker保持通信

4. HDFS：保存作业数据、配置信息，输出结果。

MapReduce的工作阶段：

first: input split （输入数据文件切片）

second:Map （执行Map task）

thrid:combiner（在Map计算出中间文件前作一个简单的合并重复key值的操作）

fourth:shuffle（将Map的输出作为Reduce的输入的过程的阶段）

fifth:reduce（执行Reduce task）

MapReduce的工作过程：

简单的讲，首先Client准备好程序，配好job，向JobTracker提交job。JobTracker收到提交来的Job之后，会着手构建Job，其中包括分配JobID，检查输出目录，输入数据文件，输出目录必须不存在（原因是如果已经存在输出目录，MapReduce的输出结果就不知道该是overwrite还是append了），输入数据文件必须存在。如果通过检查，JobTracker会根据数据文件大小计算输入分片（Input Split ），64M一片，不够64M算一片，分片完成之后，JobTracker就会配置Job所需要的资源，分配完资源，JobTracker就会初始化作业，初始化工作就是将Job放入一个内部的队列，让配置好的JobTracker能调度这个Job，JobTracker会初始化这个Job，初始化就是创建一个正在运行的Job对象（封装任务、记录信息），以便JobTracker能够跟踪这个Job的状态和进程，初始化完成后，JobTracker会获取有多少个Input Split的信息，每个分片创建一个Map任务。创建完Map任务，接下来就是分配任务了，此时TaskTracker会运行一个循环，定期发送heartbeat给JobTracker，默认间隔时间为5秒，通过heartbeat，JobTracker可以监控和获取TaskTracker的状态与问题，TaskTracker也可以通过heartbeat的返回值获取JobTracker给它的指令。任务分配完成后就是执行任务了，JobTracker通过heartbeat实时监控TaskTracker的状态、计算进度，而TaskTracker也能监控自身的状态。当JobTracker获取到最后一个TaskTracker发给它任务执行成功的通知时，JobTracker会把整个Job状态置为成功，然后当Client检查Job状态（异步行为）时会得到Job完成的通知。

1.1：用户编写MapReduce程序创建新的Client

1.2：Client向JobTracker请求获取JobId，用于标识本次MapReduce作业

1.3：Client将运行作业所需的相关资源。包括Job的配置文件，input split数据，Mapper Reducer类的Jar文件存入HDFS

1.4：Client向JobTracker发出作业提交请求

2.1：JobTracker为作业进行初始化工作

2.2：JobTracker从HDFS中获取Client存放的input split数据信息

3：TaskTracker通过heartbeat向JobTracker询问有没有任务可做

4.1: Map TaskTracker将作业的Jar文件和作业的相关参数配置文件从分布式文件存储系统中取出，并复制到本地工作目录下

4.2：TaskTracker新建一个TaskRunner实例来运行此Map任务

4.3：TaskRunner将启动一个单独的JVM，并在其中启动MapTask执行用户指定的map()函数

4.4：MapTask计算获得的数据，定期存入缓存中

4.5：在缓存满了的情况下存入本地磁盘中

4.6：在任务执行时，MapTask定时与TaskTracker通信报告任务进度

5.1：JobTracker分配Reduce任务到Reduce TaskTracker节点中

5.2：同4.2

5.3：同4.3

5.4：ReduceTask从对应的Map TaskTracker节点中远程下载中间结果的数据文件

5.5：ReduceTask执行前向HDFS创建输出文件路径，执行时输出临时结果。

5.6：ReduceTask通过heartbeat向JobTracker通报任务进度，直到任务全部完成

6.1：Client异步轮询执行结果，获得执行完成通知

6.2：Client通知用户作业完成

hadoop MapReduce 工作机制的更多相关文章

hadoop知识点总结（一）hadoop架构以及mapreduce工作机制
1,为什么需要hadoop 数据分析者面临的问题数据日趋庞大,读写都出现性能瓶颈: 用户的应用和分析结果,对实时性和响应时间要求越来越高: 使用的模型越来越复杂,计算量指数级上升. 期待的解决方案 ...
MapReduce工作机制——Word Count实例（一）
MapReduce工作机制--Word Count实例(一) MapReduce的思想是分布式计算,也就是分而治之,并行计算提高速度. 编程思想首先,要将数据抽象为键值对的形式,map函数输入键值对 ...
MapReduce06 MapReduce工作机制
目录 5 MapReduce工作机制(重点) 5.1 MapTask工作机制 5.2 ReduceTask工作机制 5.3 ReduceTask并行度决定机制手动设置ReduceTask数量测试R ...
Hadoop MapReduce工作原理
在学习Hadoop,慢慢的从使用到原理,逐层的深入吧第一部分:MapReduce工作原理 MapReduce 角色 •Client :作业提交发起者. •JobTracker: 初始化作业,分配 ...
浅谈MapReduce工作机制
1.MapTask工作机制整个map阶段流程大体如上图所示.简单概述:input File通过getSplits被逻辑切分为多个split文件,通通过RecordReader(默认使用lineRec ...
yarn/mapreduce工作机制及mapreduce客户端代码编写
首先需要知道的就是在老版本的hadoop中是没有yarn的,mapreduce既负责资源分配又负责业务逻辑处理.为了解耦,把资源分配这块抽了出来,形成了yarn,这样不仅mapreudce可以用yar ...
[hadoop读书笔记] 第五章 MapReduce工作机制
P205 MapReduce的两种运行机制第一种:经典的MR运行机制 - MR 1 可以通过一个简单的方法调用来运行MR作业:Job对象上的submit().也可以调用waitForCompleti ...
【转】简易剖析Hadoop作业工作机制
原文地址:https://www.cnblogs.com/duma/p/10666269.html 建议:结合第四版Hadoop权威指南阅读,更有利于理解运行机制运行一个 MR 程序主要涉及以下 ...
MapReduce工作机制
MapReduce是什么? MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,MapReduce程序本质上是并行运行的,因此可以解决海量数据的计算问题. MapReduce ...

随机推荐

POJ3694 Network（边双连通分量+缩点+LCA）
题目大概是给一张图,动态加边动态求割边数. 本想着求出边双连通分量后缩点,然后构成的树用树链剖分+线段树去维护路径上的边数和..好像好难写.. 看了别人的解法,这题有更简单的算法: 在任意两点添边,那 ...
storm环境搭建（前言）—— 翻译 Setting Up a Development Environment
Setting Up a Development Environment 搭建storm开发环境所需步骤: Download a Storm release , unpack it, and put ...
CCSpriteBatchNode的优化性能
当将大量精灵加载到CCLayer时,如果直接利用[self addChild:sprite]去加载,每加载一个精灵,都必须open,draw,close, 而利用 CCSpriteBatchNode去 ...
【BZOJ】3319: 黑白树（并查集+特殊的技巧/-树链剖分+线段树）
http://www.lydsy.com/JudgeOnline/problem.php?id=3319 以为是模板题就复习了下hld............................. 然后n ...
【BZOJ】1069: [SCOI2007]最大土地面积（凸包+旋转卡壳）
http://www.lydsy.com/JudgeOnline/problem.php?id=1069 显然这四个点在凸包上,然后枚举两个点找上下最大的三角形即可. 找三角形表示只想到三分QAQ.. ...
转：mysql中int、bigint、smallint 和 tinyint的区别与长度的含义
bigint 从 -2^63 (-9223372036854775808) 到 2^63-1 (9223372036854775807) 的整型数据(所有数字).存储大小为 8 个字节. P.S. b ...
this.Page.Request.ServerVariables
服务器环境变量指定要检索的服务器环境变量名.可以使用下面列出的值. 变量说明 ALL_HTTP 客户端发送的所有 HTTP 标题文件. ALL_RAW 检索未处理表格中所有的标题.ALL_RAW ...
iOS移动开发周报-第25期
iOS移动开发周报-第25期 [摘要]:本期iOS移动开发周报带来如下内容:苹果发布 iPhone6 和 Apple Watch.Swift 1.0 GM发布.Xcode 6支持PDF Vector作 ...
DotNetBar RibbonControl 控件动态添加项
想做个插件式开发,界面用Dotnetbar的RibbonControl,需要通过代码动态的向RibbonControl控件添加项示例代码如下: RibbonTabItem rti = new Rib ...
Web 在线文件管理器学习笔记与总结（4）查看文件内容
② 查看文件内容 a.通过 file_get_contents($filename) 得到文件内容 b.通过 highlight_string($string) 或者 highlight_file($ ...

hadoop MapReduce 工作机制

hadoop MapReduce 工作机制的更多相关文章

随机推荐

热门专题