Hadoop基本原理之一：MapReduce

1、为什么需要Hadoop

目前，一块硬盘容量约为1TB，读取速度约为100M/S，因此完成一块硬盘的读取需时约2.5小时（写入时间更长）。若把数据放在同一硬盘上，且全部数据均需要同一个程序进行处理，此程序的处理时间将主要浪费在I/O时间上。

在过去几十年，硬盘的读取速度并未明显增长，而网络传输速度此飞速上升。

因此，若把数据分散到多个硬盘上进行存储（如分成100份存储在100个硬盘上），则读取数据所需时间大大减少，并将各节点处理好的结果通过网络进行传输。

但这将导致2个问题

（1）数据被分散到多个硬盘中，某个盘发生故障导致部分数据出错的可能性大大增加，因此需要对数据进行复制备份======>> HDFS!!

（2）数据分散在多个盘，一般会在本地进行初步处理，，如何将处理结果进行合并============>>MapReduce!!!

2、基本节点

在Hadoop中，主要有以下5类节点：

（1） JobTracker

（2） TaskTracker

（3） NameNode

（4） DataNode

（5） SecondaryNameNode

3、零碎理论

（1）Hadoop将MapReduce的输入分成固定大小的切片，称为input split。大多数情况下，切片的大小与HDFS块的大小相等（默认情况下是64M)。

（2）

4、本地数据优先

Hadoop倾向于在存储数据的节点上进行map处理，这称为data locality optimization。

（1）首先，hadoop倾向于将数据在本地节点进行数据，如图中的a.

（2）若存储数据的节点有其它task正在进行处理，则在本机架内寻找另一个节点进行数据处理，如图中b。

（3）若本机架内所有节点均有task正在进行处理，则在其它机架内寻找节点进行数据处理。

5、MapReduce的数据流向

（1）单reducer情况

（2）多reducer情况

6、Combiner

在map与reduce之间，可以增加combiner函数，对map产生的结果进行预处理。

Hadoop基本原理之一：MapReduce的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程编写map函数和reduce函数编写驱动程序运行作业用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...
Hadoop生态圈-使用MapReduce处理HBase数据
Hadoop生态圈-使用MapReduce处理HBase数据作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.对HBase表中数据进行单词统计(TableInputFormat) ...
[hadoop][基本原理]zookeeper简单使用
代码:https://github.com/xufeng79x/ZkClientTest 1.简介 zookeeper的基本原理和使用场景描述可参考:[hadoop][基本原理]zookeeper基本 ...

随机推荐

ECSTORE 新建APP应用
1.用命令新建app // ----- window平台 ----- 直接运行 " 站点根目录/app/base/cmd.bat " 出现命令行后输入 dev:new app my ...
Python新手学习基础之函数-概念与定义
什么是函数? 函数是可以实现一些特定功能的方法或是程序,简单的理解下函数的概念,就是你编写了一些语句,为了方便使用,把这些语句组合在一起,给它起一个名字,即函数名.使用的时候只要调用这个名字,就可以实 ...
How many ways??（HDU 2157）
How many ways?? Sample Input 4 4 //n个点,m条路径0 1 //s->t可通0 21 32 32 //询问数0 3 2 //从0到3走两条路可到的方案有多少种0 ...
cf E. Dima and Magic Guitar
http://codeforces.com/contest/366/problem/E |x1-x2|+|y1-y2|有四种情况 1.-(x1-x2)+(y1-y2); 2.(x1-x2)-(y1-y ...
JavaScript对象基础知识
1.对象所包含的元素一组包含数据的属性.如人的名字.书的价格和手机型号等.允许对属性中所包含的数据进行操作的方法. 2.引用对象的途径一个对象真正地被使用,可以采用以下几种方式.引用Javascrip ...
Android项目使用support v7时遇到的各种问题
Android项目使用support v7时遇到的各种问题点击你的工程右键-->Properties-->Android 1.查看你引用的appcompat_v7包是否引用正确 2.用较 ...
android Service简介及启动关闭方式
(1)Service是Android系统中的四大组件之一,和Activity是同一层次的组件:它是一种生命周期较长,没有可视化界面,运行于后台的一种服务:例如,我们听音乐可以使用Service,下载东 ...
struct2（一）第一个struct程序
说明:本系列是针对struct2学习过程,主要的目的: 1. 探索针对一个新的开源框架的学习过程. 2. 学习struct2,学习官方对struct2介绍的方法. 3.别把英语忘了. 1. 为了更加清 ...
HDU--3466（0-1背包+贪心/后效性）
题意是: 给你一些钱 m ,然后在这个国家买东西, 共有 n 件物品,每件物品有价格 P 价值 V 还有一个很特别的属性 Q, Q 指你如过想买这件物品你的手中至少有这钱Q . 虽 ...
Struts2简单例子
Struts实现注册功能 ControlFilter.java package com.jikexueyuan.filter; import java.io.IOException; import j ...

Hadoop基本原理之一：MapReduce

Hadoop基本原理之一：MapReduce的更多相关文章

随机推荐

热门专题