我眼中的大数据（三）—

这次来聊聊Hadoop中使用广泛的分布式计算方案——MapReduce。MapReduce是一种编程模型，还是一个分布式计算框架。

MapReduce作为一种编程模型功能强大，使用简单。运算内容不只是常见的数据运算，几乎大数据中常见的计算需求都可以通过它来实现。使用的时候仅仅需要通过实现Map和Reduce接口的方式来完成计算逻辑，其中Map的输入是一对<Key, Value>，经过计算后输出一对<Key, Value>；然后将相同Key合并，形成<Key, Value>集合；再将这个集合输入Reduce。

下面，就以WordCount为例，熟悉一下MapReduce：

WordCount是为了统计文本中不用词汇出现的次数。如果统计一篇文本的内容，只需要写一个程序将文本数据读入内存，创建一个字典，记录每个词出现的次数就可以了。但是如果想统计互联网中网页的词汇数量，就需要用MapReduce来解决。

public class WordCount {

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);

    private Text word = new Text();

    public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      StringTokenizer itr = new StringTokenizer(value.toString());

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        context.write(word, one);

      }

    }

  }

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = 0;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

}

从上面代码不难发现，MapReduce核心是一个map函数和一个reduce函数。map函数的输入主要是一个<Key, Value>对，在这个例子里，Value是要统计的所有文本中的一行数据，Key在一般计算中都不会用到。map函数将文本中的单词提取出来，针对每个单词输出一个<word, 1>。MapReduce计算框架会将这些<word , 1>，合并成<word , <1,1,1,1,1,1,1…>>，然后传给reduce函数。reduce函数将这个集合里的1求和，再将word和这个sum组成一个<Key, Value>，也就是<word, sum>输出。apReduce框架为每个数据块分配一个map函数去计算，从而实现大数据的分布式计算。

MapReduce在运行过程中有三个关键进程，分别是Driver进程、JobTracker进程、TaskTracker进程。

1.Driver进程:是启动MapReduce的主入口，主要是实现Map和Reduce类、输入输出文件路径等，并提交作业给Hadoop集群，也就是下面的JobTracker进程。

2.JobTracker进程：根据输入数据数量，命令TaskTracker进程启动相应数量的Map和Reduce进程，并管理整个生命周期的任务调度和监控。

3.TaskTracker进程：负责启动和管理Map以及Reduce进程。因为需要每个数据块都有对应的map函数，TaskTracker进程通常和HDFS的DataNode进程启动在同一个服务器。

JobTracker进程和TaskTracker进程是主从关系，同一时间提供服务的主服务器通常只有一台，从服务器有多台，所有的从服务器听从主服务器的控制和调度安排。主服务器负责为应用程序分配服务器资源以及作业执行的调度，而具体的计算操作则在从服务器上完成。MapReduce的主服务器就是JobTracker，从服务器就是TaskTracker。

1.JobClient将包含MapReduce的JAR包存储在HDFS中，将来这些JAR包会分发给Hadoop集群中的服务器执行计算。

2.向JobTracker提交Job。

3.JobTracker根据调度策略创建JobInProcess树，每个作业都会有一个自己的JobInProcess树。

4.JobInProcess根据输入数据的块数和配置中的Reduce数目创建相应数量的TaskInProcess。

5.TaskTracker和JobTracker进行心跳通信。

6.如果TaskTracker有空闲的计算资源，JobTracker就会给它分配任务。

7.TaskTracker收到任务类型（是Map还是Reduce）和任务参数（JAR包路径、输入数据文件路径），启动相应的进程。

8.Map或者Reduce进程启动后，检查本地是否有要执行任务的JAR包文件，如果没有，就去HDFS上下载，然后加载Map或者Reduce代码开始执行。

9.如果是Map进程，从HDFS读取数据；如果是Reduce进程，将结果写出到HDFS。

我们仅仅是编写一个map函数和一个reduce函数就可以了，不用关心这两个函数是如何被分布启动到集群上的，也不用关心数据块又是如何分配给计算任务的。

MapReduce框架要将一个相对简单的程序，在分布式的大规模服务器集群上并行执行起来却并不简单。理解MapReduce作业的启动和运行机制，对理解大数据的核心原理，做到真正意义上把握大数据作用巨大。

我眼中的大数据（三）——MapReduce的更多相关文章

大数据技术 - MapReduce的Combiner介绍
本章来简单介绍下 Hadoop MapReduce 中的 Combiner.Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和磁盘I ...
【机器学习实战】第15章大数据与MapReduce
第15章大数据与MapReduce 大数据概述大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据场景假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则 ...
大数据与Mapreduce
第十五章大数据与Maprudece 一．引言实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分 ...
【技术与商业案例解读笔记】095：Google大数据三驾马车笔记
1.谷歌三驾马车地位 [关键词]开启时代,指明方向聊起大数据,我们通常言必称谷歌,谷歌有“三驾马车”:谷歌文件系统(GFS).MapReduce和BigTable.谷歌的“三驾马车”开启了大数据时 ...
大数据技术 - MapReduce的Shuffle及调优
本章内容我们学习一下 MapReduce 中的 Shuffle 过程,Shuffle 发生在 map 输出到 reduce 输入的过程,它的中文解释是 “洗牌”,顾名思义该过程涉及数据的重新分配,主要 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
大数据开篇 MapReduce初步
最近在学习大数据相关的东西,开这篇专题来记录一下学习过程.今天主要记录一下MapReduce执行流程解析引子(我们需要解决一个简单的单词计数(WordCount)问题) 1000个单词嘿嘿,100 ...
我眼中的大数据（二）——HDFS
Hadoop的第一个产品是HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性.如果我们将大数据计算比作烹饪,那么数据就是食材,而Hadoop分布式文件系统HDFS就是烧菜的 ...
大数据开发 | MapReduce介绍
1. MapReduce 介绍 1.1MapReduce的作用假设有一个计算文件中单词个数的需求,文件比较多也比较大,在单击运行的时候机器的内存受限,磁盘受限,运算能力受限,而一旦将单机版程序扩展 ...

随机推荐

LMC7660即-5V产生电路
LMC7660为小功率极性反转电源转换器,通过LMC7660电路产生-5V电压,其芯片管脚定义如下表所示． LMC7660负电压产生电路如下图所示．其中6脚当供电电压大于等于5V时该脚必须悬空,当供 ...
利用噪声构建美妙的 CSS 图形
在平时,我非常喜欢利用 CSS 去构建一些有意思的图形. 我们首先来看一个简单的例子.首先,假设我们实现一个 10x10 的格子: 此时,我们可以利用一些随机效果,优化这个图案.譬如,我们给它随机添加 ...
GET 请求和 POST 请求的区别和使用
作为前端开发, HTTP 中的 POST 请求和 GET 请求是经常会用到的东西,有的人可能知道,但对其原理和如何使用并不特别清楚,那么今天来浅谈一下两者的区别与如何使用. GET请求和POST请求的 ...
APISpace 尾号限行API接口免费好用
尾号限行是一种为了缓解城市交通压力而催生的交通制度,措施实施以后对城市交通拥堵起到缓解作用.每个地区的尾号限行规定都有所不同,具体的以当地的为准. 尾号限行API,提供已知所有执行限行政策的共计6 ...
5-2 Nacos注册中心
Nacos注册中心什么Nacos Nacos是Spring Cloud Alibaba提供的一个软件这个软件主要具有注册中心和配置中心的功能我们先学习它注册中心的功能微服务中所有项目都必须注册 ...
CD 从抓轨到搭建流媒体服务器 —— 以《月临寐乡》为例
2022-07-19 v0.0.1 由于某些原因,进了 Static World 的群并入坑了月临寐乡 ,梦开始了.作为幻想乡的新人,也算是有了自己喜欢的社团.但是更细节的东西,狐狐脑子一下子塞不下 ...
2022.7.9 单向链表&数组优化
相比起数组,链表解决了数组不方便移动,插入,删除元素的弊端,但相应的,链表付出了更加大的内存牺牲换来的这些功能的实现. 链表概述包含单链表,双链表,循环单链表,实际应用中的功能不同,但实现方式都差不 ...
maven exclusion 理解
结论:exclusion 表示对传递性依赖进行排除,排除后当前项目的依赖jar中,就不会包含该传递性依赖. 扩展:项目中的jar 都会在classpath下,排除后的传递性依赖,相当于在classpa ...
实践GoF的23种设计模式：观察者模式
摘要:当你需要监听某个状态的变更,且在状态变更时通知到监听者,用观察者模式吧. 本文分享自华为云社区<[Go实现]实践GoF的23种设计模式:观察者模式>,作者: 元闰子 . 简介现在有 ...
缓冲流的原理和BufferedOutputStream字节缓冲输出流
缓冲流的原理 BufferedOutputStream字节缓冲输出流 package com.yang.Test.BufferedStudy; import java.io.BufferedOutpu ...

我眼中的大数据（三）——MapReduce

我眼中的大数据（三）——MapReduce的更多相关文章

随机推荐

热门专题