hadoop map-red的执行过程

hadoop的 map-red就是一个并行计算平台，我们在使用这个平台的时候，要做的事情就是提交自己定制的任务（job，主要定制map类，reduce类，combine类等类）,然后设置job的各种参数，比如设置mappe/reducer/combine类，输入数据路径，输出数据路径，输出格式。然后可以根据日志或者web页面查看任务执行的情况，如果错误，通过web页面查看日志。对于map-red平台，我们可以设置各种参数，来使得我们提交的任务的执行效率得到优化，比如多少个reducer任务，分片大小等。

map-red的执行过程，首先分片由hadoop来完成，hadoop将完成的分片交给一个mapper任务，一个mapper任务可以不只执行一个分片，mapper任务的执行过程是，从data中读入一行，然后用我们自定义的mapper函数处理，每读入一行，调用mapper函数一次。如果有多个reducer任务，hadoop还要进行分区，默认的分区器是“key.hash（reduce任务的个数）”（注：可以写自己的分区器），也就是在一个分区中，是具有相同的hash值的key-value, 等到reducer任务运行的时候，会从对应于自身（hash对应）的多个mapper的相应分区中通过网络取过来放在本地，然后在reducer本地进行shuffle操作，shuffle操作是对多个map的输出进行一次重排序，因为单个map的输出已经是有序的啦（map写入磁盘前在内存中执行的），shuffle操作后进行reduc操作，将结果输出到目标地。（为什么要进行排序，为了reduce的输出？）

为了减少map和redu的之间传输的数据数量，在mapper操作完成后，在map处可以对中间数据进行一次combine处理，combine处理实质上是reduce数据的预处理在map本地的运行。combine是在map输出的中间数据写入到磁盘前运行，并且会反复运行，所以combine的另外一个意义也是使得map写入到磁盘的中间数据量更少。

如果没有reduce任务，hadoop会将map结果直接输出到目标地，如果有reduce，map的结果就是reduce的输入，即中间数据，hadoop把这些中间数据放在本地存储（是否是采用oracle的临时表空间的思想）。

hadoop map-red的执行过程的更多相关文章

hadoop jar x.jar 执行过程
hadoop jar x.jar 执行过程 Yarn框架执行内容 1,job.waitforcompletion() 启动 Runjar 进程 -> Resourcemanage申请一个j ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
(转载)Hadoop map reduce 过程获取环境变量
来源:http://www.linuxidc.com/Linux/2012-07/66337.htm 作者: lmc_wy Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取 ...
Hadoop 少量map/reduce任务执行慢问题
最近在做报表统计,跑hadoop任务. 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题. 执行时间长有几种可能性: 1. 单个map/reduce任务处 ...
Hadoop MapReduce执行过程实例分析
1.MapReduce是如何执行任务的?2.Mapper任务是怎样的一个过程?3.Reduce是如何执行任务的?4.键值对是如何编号的?5.实例,如何计算没见最高气温? 分析MapReduce执行过程 ...
Hadoop mapreduce执行过程涉及api
资源的申请,分配过程略过,从开始执行开始. mapper阶段: 首先调用默认的PathFilter进行文件过滤,确定哪些输入文件是需要的哪些是不需要的,然后调用inputFormat的getSplit ...
Hadoop 执行过程中出现 name node is in safe mode 问题
解决方法: 1.进入hadoop安装根目录如 :我的hadoop 安装在/usr/local/hadoop 执行 cd /usr/local/hadoop bin/hadoop dfsadmin - ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...

随机推荐

Linux常用命令（四）
1.xargs 作用是将参数列表转换成小块分段传递给其他命令,以避免参数列表过长的问题语法格式: # xargs [-ni] 常用参数: 参数参数说明 -n 分组输出,n个分为一组 -i 与大括号 ...
VC++6.0在Win7以上系统上Open或Add to Project files崩溃问题解决新办法
崩溃原因是和office高版本冲突,比如我64位win7装了64位office2013及visio就遇到了这个问题(我很纳闷,记得重装系统前装的是32位office2013及visio就未曾遇到该问题 ...
Java线程锁一个简单Lock
/** * @author * * Lock 是java.util.concurrent.locks下提供的java线程锁,作用跟synchronized类似, * 单是比它更加面向对象,两个线程执行 ...
HDU3333 Turing Tree 树状数组+离线处理
Turing Tree Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total ...
for与if、else的使用
#!/usr/bin/env python def fun3(x) : num =0 for i in x : if i == "" : num += 1 if num == 0 ...
Sqrt(x) - LintCode
examination questions Implement int sqrt(int x). Compute and return the square root of x. Example sq ...
开源.NET FTP组件edtFTPnet 用法
edtFTPnet官方网站:http://www.enterprisedt.com/products/edtftpnet/ 目前最新版本为2.2.3,下载后在bin目录中找到edtFTPnet.dll ...
关于js touch事件的引用设置
一开始做前端页面的时候,接触的也是js,但是随后便被简单高效的jquery吸引过去,并一直使用至今. 而js,则被我主观的认为底层技术而抛弃. 直到这几天工作需要,研究移动端页面的触屏滑动事件,搜索j ...
FTPS链接服务器
一.首先登录ftp服务器:命令行 lftp user@ip 上传:put 下载: get 二. 关于FTP传输模式与传输的方式众所周知,FTP传输有两种工作模式,Active Mode和Pass ...
html之meta详解
<!DOCTYPE html>  <html lang="zh-cmn-Hans"&g ...

hadoop map-red的执行过程

hadoop map-red的执行过程的更多相关文章

随机推荐

热门专题