换个角度理解云计算之MapReduce

　　上一篇简单讲了一下HDFS，简单来说就是一个叫做“NameNode”的大哥，带着一群叫做“DataNode”的小弟，完成了一坨坨数据的存储，其中大哥负责保存数据的目录，小弟们负责数据的真正存储，而大哥和小弟其实就是一台台的电脑，他们之间通过交换机，互相联系到了一起。

　　其实这位大哥和这群小弟不仅能存储数据，还能完成很多计算任务，于是他们有了新的名字，大哥叫做“JobTracker”，而小弟们叫做“TaskTracker”，一起组成了MapReduce。今天就来说说MapReduce是怎么一回事。

　　这里仅仅是从大面上去介绍，让大家有一个整体的认识，而整体上认识后，个别的细节知识自己再去看看别的资料，也就很容易理解了，只是时间问题而已。

　　刚开始学习MapReduce，肯定会被各种各样的概念整的晕头转向，到底尼玛任务、job、作业、Task有什么区别？split、数据分片、数据块、block到底什么区别？Map、Mapper、Map方法到底是不是一回事？到底Map输入的Key和Value是什么，是一行数据，还是一行行的数据？Reduce的输入到底尼玛是什么东西？他们之间到底是怎么一个数据流程？还出现了什么Sort、Merge、Shuffle？我了个去啊！！！

　　如果你也有这样的疑惑，那么下面听我慢慢道来吧，请记住两点：1.MapReduce是个框架，因此是很简单的，前先在脑子里面有这个观念。2.有了这个观念，就不要暴躁了，慢慢看下去吧。

　　为了说清MapReduce这个问题，我还是以经典的统计单词数量来一步步的说明。我来一步步的去说：

一、我们要干什么？

　　现在有一个文本文件，里面好多好多单词，文件有多大呢？别管它多大了，反正有很多行，我们要做的事情就是：统计出来到底这个文件里面每个单词出现的次数，最终输出结果到文件中。简单来说如下：

　　输入：一个有很多单词的文本文件。　　　　

例如：文件为test.txt,文件内容如下：
hello world
hello hadoop
    .
    .
    .
    .
hello dog
hello world
hello jobs

　　输出：一个显示单词出现次数的文件。

例如：统计出来结果为：
hello
world
hadoop
jobs
    .
    .
    .
    .

二、编写程序

　　针对上面这件事，我们编写程序，程序名字叫MyWordCount，我们把程序提交给MapReduce，让大哥和小弟们去做，我们称之为一个作业，英文名叫做job。

三、程序做了什么

　　关键点来了。

1、文件分割

　　这么大一个数据文件test.txt,首先输入进来之后，会被分割成一块一块的，称之为一个个split。为了方便我们假设分成了5个split，分别是split1~5，说白了，可以认为是把test.txt分成了五个小文件split1~5，每个split里面有很多行数据。（到底输入文件怎么划分，可以看看InputSplit,可以设置的，这里我们就假设那个test.txt文件内容从上到下分成了5份）。接下来分别对这5个split进行单词的统计，叫做分布式运算。每一个split作为输入数据，给了一个Map，因此叫做Map任务，你也可以叫做Mapper，在编写程序里面Mapper是一个类，用了继承的。

　　因此，总结一下就是：一个文件，分成了split1~5五个数据分片，每个数据分片对应一个Map任务，共五个Map任务，分别为Map1~5。那么这5个任务让谁去干呢？大哥“JobTracker”说，小弟“Tasktracker”们去干吧。要是有5个小弟，一人一个Map任务，可是假如有三个小弟的话，那么其中两个小弟就必须多干一个任务。

（实际运行过程中，大概是每个小弟大约10到100个Map，对于CPU消耗较小的，大哥可能会给这个小弟分配300个左右）

2.Map操作

　　让我们把镜头拉进其中一个split的Map过程，假设是split1的Map1过程。

　　Split1有好多行数据，整体给了Map任务去操作。那么Map任务怎么操作呢？在程序里面其实就是一个Mapper类而已。因此真正实现操作的是Mapper类的其中的map方法来操作，map方法会对输入文件进行操作。那么问题来了，map方法的输入key和value是什么呢，是split1的所有数据还是某一行数据。答案是：某一行数据。那是怎么怎么处理完成那么多行数据的。答案是：运行多次map方法。

因此，总结一下就是：split1有很多行数据，map1任务去处理，对于每一行数据，运行一次map方法。

假如split1有三行：第一行：hello world 第二行：hello hadoop 第三行：hello hadoop。

经过Map1任务运行三次map方法，

第一次map方法的：

输入的key为1，value为：hello world（其中key的值是我瞎编的，value值是对的）。运行map方法里面的代码后

输出为：第一行：hello 1，第二行：world 1

第二次运行map方法的

输入的key为12，value为：hello hadoop，运行map方法后，

输出为：第一行：hello 1,，第二行：hadoop 1

第三次运行map方法

输入的key为23，value为：hello hadoop，运行map方法后，

输出为：第一行：hello 1，hadoop 1

最终，split1，经过一次Map1任务的好多次map方法运行后，最终输出结果可能如下：

hello
world
hello
hadoop
hello
hadoop

最终，5个split1~5和5个map1~5输出了5份结果，分别存在了不同的节点上，以中间文件存在的，可能并不是知道它们在哪里。

接下来，就该进行Reduce的归并操作，最终统计出来结果，可是在Reduce之前，Map之后，还做了很多事情，下篇再写吧，这篇内容太长了。

（完）

文档信息

版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）
本文为原创文章，欢迎转载，后续本博客会不断更新，因此请保留该文档信息。
本文地址：http://www.cnblogs.com/wuguanglei/p/4034323.html

换个角度理解云计算之MapReduce的更多相关文章

换个角度理解云计算之MapReduce(二)
接上篇 3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的m ...
换个角度理解云计算之HDFS
学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS. 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信 ...
以吃货的角度去理解云计算中On-Premise、IaaS、PaaS和SaaS
了解云计算的一定都听过四个“高大上”的概念:On-Premise(本地部署),IaaS(基础设施及服务).PaaS(平台即服务)和SaaS(软件即服务),这几个术语并不好理解.不过,如果你是个吃货,还 ...
理解hadoop的Map-Reduce数据流(data flow)
http://blog.csdn.net/yclzh0522/article/details/6859778 Map-Reduce的处理过程主要涉及以下四个部分: 客户端Client:用于提交Map- ...
理解云计算的（IaaS PaaS SaaS）
本文不经允许,不得转载! 云计算技术已经慢慢普及了.我们做技术的有必要学习云计算技术. IaaS:Infrastructure-as-a-Service(基础设施即服务)云计算到来之前,很多企业都是自 ...
云计算(5)---MapReduce
什么是MapReduce 例如用MapReduce如何计算12+22+32+42 用MapReduce执行Wordcount 步骤1:Map map task1 和map task2是独立,并行进行 ...
深入理解hadoop之mapreduce
本文系原创,若有转载需要,请注明出处.https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型.框架和 ...
深入理解hadoop值MapReduce(2)
1.MapReduce编程模型概述 MapReduce编程模型给出了分布式的编程方法,总共分为5个步骤.分为这5个步骤的优点:组件化和并行化 (1)迭代.遍历输入数据,并将其解析成key/value键 ...
理解云计算三种服务模式——IaaS、PaaS和SaaS
云计算的服务模式仍在不断进化,但业界普遍接受将云计算按照服务的提供方式划分为三个大类: SaaS(Software as a Service–软件即服务) PaaS(Platform as a Ser ...

随机推荐

20145202、20145225、20145234 《信息安全系统设计基础》实验五简单嵌入式WEB 服务器实验
实验内容 1.配置环境 2.使用vi 编辑器阅读理解源码 2.编译应用程序运行 make 产生可执行文件httpd 3.下载调试使用 NFS 服务方式将HTTPD 下载到开发板上,并拷贝测试用的网 ...
如何去掉div滚动条
1.去掉横向滚动条 style="overflow-x:hidden" 2.去掉纵向滚动条 style="overflow-y:hidden" 3.同时去掉横向 ...
排序算法 ----（转载：：http://blog.csdn.net/hguisu/article/details/7776068）
1.插入排序—直接插入排序(Straight Insertion Sort) 基本思想: 将一个记录插入到已排序好的有序表中,从而得到一个新,记录数增1的有序表.即:先将序列的第1个记录看成是一个有序 ...
python脚本执行Scapy出现IPv6警告WARNING解决办法
安装完scapy,写了脚本执行后执行: WARNING: No route found for IPv6 destination :: (no default route?) 原因是用 from sc ...
CSS无序列实现表宽度自适应的表格
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
时空地图TimeGIS 可编辑ArcGIS的Shape矢量文件的地理信息系统
时空地图 TimeGIS 6.0 是一个地理信息系统软件,它可以显示网络地图,编辑ArcGIS的SHP矢量文件格式,显示NETCDF等栅格文件,管理图层等. 在它的基础上,可以二次开发各种GIS应用, ...
Windows Phone 8.1 新特性 - 控件之列表选择控件
本篇我们来介绍Windows Phone 8.1 新特性中的列表选择控件. 在Windows Phone 8 时代,大家都会使用 LongListSelector 来实现列表选择控件,对数据进行分组显 ...
Spring Batch 中文参考文档 V3.0.6 - 1 Spring Batch介绍
1 Spring Batch介绍企业领域中许多应用系统需要采用批处理的方式在特定环境中运行业务操作任务.这种业务作业包括自动化,大量信息的复杂操作,他们不需要人工干预,并能高效运行.这些典型作业包括 ...
强大的swift字符串
Swift集百家之长,吸收了主流语言java,c,c++等的好的特性,所以它功能十分强大,今天我们就来看看它强大的字符串. 首先,我们带着这样几个问题去了解.理解swift的字符串. 1.swift字 ...
选择排序-java
排序-选择排序基本思想:在待排序子表中找出最大(小)元素, 并将该元素放在子表的最前(后)面. 平均时间:O(n2) 最好情况:O(n2) 最坏情况:O(n2) 辅助空间:O(1) 稳定性:不稳定 ...

换个角度理解云计算之MapReduce

换个角度理解云计算之MapReduce的更多相关文章

随机推荐

热门专题