了解hadoop，首先就需要先了解hadoop的数据流，就像了解servlet的生命周期似的。hadoop是一个分布式存储（hdfs）和分布式计算框架（mapreduce），但是hadoop也有一个很重要的特性：hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

术语

MapReduce 作业（job）是客户端需要执行的一个工作单元：它包括输入数据、mapreduce程序和配置信息。hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务：map任务和reduce任务。

有两类节点控制着作业执行过程：一个jobtracker及一系列tasktracker。
jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报
告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以在另外一个
tasktracker节点上重新调度该任务。

输入

hadoop将mapreduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。

对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64M，不过可以针对集群调整这个默认值。分片的大小一定要根据运行的任务来定，如果分片过小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。

hadoop在存储有输入数据的节点上运行map任务，可以获得最佳性能，这就是所谓的数据本地化优化。
因为块是hdfs存储数据的最小单元，每个块可以在多个节点上同时存在（备份），一个文件被分成的各个块被随机分部在多个节点上，因此如果一个map任务
的输入分片跨越多个数据块，那么基本上没有一个节点能够恰好同时存在这几个连续的数据块，那么map任务就需要首先通过网络将不存在于此节点上的数据块远
程复制到本节点上再运行map函数，那么这种任务显然效率非常低。

输出

map任务将其输出写入到本地磁盘，而非HDFS。这是因为map的输出是中间结果：该中间结果有reduce任务处理后才产生最终结果（保存在hdfs中）。而一旦作业完成，map的输出结果可以被删除。

reduce任务并不具备数据本地化优势：单个reduce任务的输入通常来自于所有的mapper任务的输出。reduce任务的输出通常存储于HDFS中以实现可靠存储。

数据流

作业根据设置的reduce任务的个数不同，数据流也不同，但大同小异。reduce任务的数量并非由输入数据的大小决定的，而是可以通过手动配置指定的。

单个reduce任务

多个reduce任务

如果是多个reduce任务的话，则每个map任务都会对其输出进行分区（partition），即为每个reduce任务创建一个分区。分区有用户定义的分区函数控制，默认的分区器（partitioner）通过哈希函数来分区。
map任务和reduce任务之间的数据流称为shuffle（混洗）。

没有reduce任务

当然也可能出现不需要执行reduce任务的情况，即数据可以完全的并行。

combiner（合并函数）

顺便在这说下combiner吧，hadoop运行用户针对map任务的输出指定一个合并函数，合并函数的输出作为reduce函数的输入。其实合并函数
就是一个优化方案，说白了就是在map任务执行后在本机先执行合并函数（通常就是reduce函数的拷贝），减少网络传输量。

大数据时代之hadoop(三)：hadoop数据流（生命周期）的更多相关文章

大数据时代快速SQL引擎-Impala
背景随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十.几百M也要放到Hadoop上作分析,只会适 ...
转：大数据时代快速SQL引擎-Impala
本文来自:http://blog.csdn.net/yu616568/article/details/52431835 如有侵权可立即删除背景随着大数据时代的到来,Hadoop在过去几年以接近统 ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
大数据时代，我们为什么使用hadoop
大数据时代,我们为什么使用hadoop 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说. 对于大数据,可以用四个词来表示:大量,多样 ...
【Hadoop】大数据时代，我们为什么使用hadoop
博客已转移,请借一步说话.http://www.daniubiji.cn/archives/538 我们先来看看大数据时代, 什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB , ...
【大数据】Summingbird（Storm + Hadoop）的demo运行
一.前言为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...
大数据框架：Spark vs Hadoop vs Storm
大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...
大数据项目实践：基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统
一.前言从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

随机推荐

Python2 基于urllib2 的HTTP请求类
一个利用urllib2模块编写的下载器,虽然有了requests模块,但是毕竟标准库 import urllib2,random class strong_down(): def __init__(s ...
ecshop3.0.0注入
配个环境来演示给别人看..分析一下.flow.php文件缺陷,order_id在post请求没有单引号保护.造成注入 <?php elseif ($_REQUEST['step'] == 're ...
cuda编程（一）
环境安装和例程运行显卡主要有两家,ATI.NVIDIA,简称A卡和N卡.随着GPU计算能力的上升,采用GPU并行计算来加速的应用越来越多. Nvidia创立人之一,黄仁勋(Jen-Hsun Huan ...
获取usb设备父系或子代
/// <summary> /// 获取设备父系 /// </summary> /// <param name="driver"></pa ...
Swift原理
背景与概览 Swift 最初是由 Rackspace 公司开发的高可用分布式对象存储服务,并于 2010 年贡献给 OpenStack 开源社区作为其最初的核心子项目之一,为其 Nova 子项目提供虚 ...
Kostya the Sculptor
Kostya the Sculptor 题目链接:http://codeforces.com/problemset/problem/733/D 贪心以次小边为第一关键字,最大边为第二关键字,最小边为 ...
拒绝深坑！记录找了多半天时间的C++编译失败的错误
采用新的源码,和原来的服务改动也不是很大,但是拒绝深坑啊,找了半天以为是源码的问题,结果倒好原来是环境的问题,还是要感谢一个神一样的人物的帮助编译的时候一直出现undefined reference ...
当页面加载完成时，JQ触发添加页面的元素的事件触发不了。。
有下代码可知: <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default. ...
ES 6 : Math对象的扩展
ES6在Math对象上新增了17个与数学相关的方法.所有这些方法都是静态方法,只能在Math对象上调用. 1.Math.trunc() Math.trunc方法用于去除一个数的小数部分,返回整数部分. ...
java通过JDBC链接SQLServer2012 （含1433端口打通）
首先,在连接数据库之前必须保证SQL Server 2012是采用SQL Server身份验证方式而不是windows身份验证方式.如果在安装时选用了后者,则重新设置如下: http://blog.1 ...

大数据时代之hadoop(三)：hadoop数据流（生命周期）

术语

输入

输出