Hadoop系列-MapReduce基础

由于在学习过程中对MapReduce有很大的困惑，所以这篇文章主要是针对MR的运行机制进行理解记录，主要结合网上几篇博客以及视频的讲解内容进行一个知识的梳理。

MapReduce on Yarn运行原理
- Job提交
  - yarn由两个重要的jvm进程组成：ResourceManager、NodeManager。在客户端运行MapReduce Job之后，会首先向ResourceManager申请一个唯一的applicationID
  - 判断Job的输出路径是否存在，如果存在则报错退出。这里之所以这样设计必须要求要一个新的输出路径的原因可以参考博文：https://www.cnblogs.com/sharpxiajun/p/3151395.html
  - 根据输入文件计算input splits
  - 将Job需要的依赖资源上传到HDFS，资源包括程序的jar包、计算好的splits（包括input splits数量、位置）等
  - 向ResourceManager提交MapReduce Job
- Job初始化
  - ResourceManager根据提交的资源请求在NodeManager上启动一个Container（yarn对资源的一个封装，就是包含一定cpu和内存的jvm）运行ApplicationMaster（MRAppMaster）。在这里需要说明两点，第一，可以在程序内部添加代码实现内存和cpu的配置（相对于在mapred-site.xml中配置较为灵活），ResourceManager根据资源情况选择合适的NodeManager启动一个Container来运行MRAppMaster。第二，之所以要在NodeManager上运行MRAppmaster是为了分散ResourceManager所在主机的运行压力。
  - MRAppmaste初始化job（多少MapTask、ReduceTask、都在哪些机器上跑）
  - 读取inputsplits信息，为每个inputsplits创建MmapTask，根据程序里的配置确定需要创建多少个ReduceTask，MRAppmaste就是负责管理Task运行的
- Task分配
  - MRAppmaste为每一个MapTask、ReduceTask向ResourceManager申请资源
- Task执行
  - 在申请完资源之后在数据所在的节点启动一个Container，在其中运行一个YarnChild
  - MapTask、ReduceTask都是运行在YarnChild上的，运行过程中会给MRAppmaste发送运行状态信息
以上基本描述了MapReduce on Yarn的一个基本运行过程，可以参考以下的图示进行理解。

MapReduce 的运行机制

宏观角度来看，整个MapReduce 程序运行的核心是MapTask和ReduceTask，分阶段来看主要分为三个阶段：map阶段、shuffle阶段、reduce阶段，这其中shuffle是核心。
- map阶段：实际上是运行编写好的map方法就可以，一般会在相应的splits节点机器上本地运行。
- shuffle阶段：shuffle阶段的操作横跨MapTask和ReduceTask
  - 在经过map方法之后数据会以key-value的形式保存在内存中，如果在程序中设置了要用多个ReduceTask的话，接下来MapReduce提供Partitioner接口进行分区，也就是决定哪些数据会最终在哪一个ReduceTask上跑。默认情况下是HashPartitioner，也可以自定义。之后，需要将数据写入内存缓冲区中，缓冲区的作用是批量收集map结果。我们的key-value对以及Partition的结果都会被写入缓冲区。当然写入之前，key与value值都会被序列化成字节数组。缓冲区是一个环形数据结构中，使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。
  - 这个缓冲区的默认大小是100MB，那么当数据量较大的时候，缓冲区就不够用了，这个时候就需要向磁盘中写入，但是这里不是说完全达到100MB才会触发向磁盘写的操作，默认情况下会有一个0.8的阈值系数，也就是说当占用了80MB的空间之后，就会触发向磁盘写的操作，称为spill。当溢写线程触发之后，需要对这80MB空间内的key做排序(Sort)，在spill的过程中还可以利用剩余的20MB空间继续向缓存区存入数据，这两个过程之间互不影响。如果client设置过Combiner，那么现在就是使用Combiner的时候了，将有相同key的key/value对的value加起来，减少溢写到磁盘的数据量，但是combiner要慎用，使用它的原则是combiner的输入不会影响到reduce计算的最终输入，例如：如果计算只是求总数，最大值，最小值可以使用combiner，但是做平均值计算使用combiner的话，最终的reduce计算结果就会出错。每次spill操作也就是写入磁盘操作时候就会写一个溢出文件，也就是说在做map输出有几次spill就会产生多少个溢出文件。
  - 由于最终的输出文件只有一个，所以需要将这些溢写文件归并到一起，这个过程就叫做Merge。这里可能也会出现多个相同key的情况，设置过combiner的话这里也会进行合并。
    
    以上就是MapTask阶段的shuffle操作。
  - 拉取MapTask的输出文件，主要通过HTTP的方式请求数据
  - merge和sort，数据拉取过来之后会先放在内存缓冲区中，与map端的spill类似也会向磁盘写如溢出文件，同时进行排序，最后在硬盘中合并为一个最终文件
- reduce阶段：生成的最终文件作为reduce的输入，然后调用编写的reduce方法最终完成ReduceTask阶段。
通过上述分析可以发现，在整个环节中shuffle的操作最为复杂真正涉及到内存以及磁盘的读写，所以shuffle阶段是一个主要系统调优的点。

参考：

【1】https://www.cnblogs.com/sharpxiajun/p/3151395.html

【2】https://blog.csdn.net/sunshingheavy/article/details/75849554

【3】https://langyu.iteye.com/blog/992916

【4】https://www.cnblogs.com/yangsy0915/p/5528774.html

Hadoop系列-MapReduce基础的更多相关文章

Hadoop系列-HDFS基础
基本原理 HDFS(Hadoop Distributed File System)是Hadoop的一个基础的分布式文件系统,这个分布式的概念主要体现在两个地方: 数据分块存储在多台主机数据块采取冗余 ...
小记---------Hadoop的MapReduce基础知识
MapReduce是一种分布式计算模型,主要用于搜索领域,解决海量数据的计算问题 MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算. 两 ...
Hadoop系列-zookeeper基础
目前是刚刚初学完zookeeper,这篇文章主要是简单的对一些基本的概念进行梳理强化. zookeeper基础概念的理解有时候计算机领域很多名词都是从一长串英文提取首字母缩写而来,但很不幸zooke ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
[Hadoop in Action] 第4章编写MapReduce基础程序
基于hadoop的专利数据处理示例 MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API 用于提升性能的Combine ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
Hadoop 综合揭秘——MapReduce 基础编程（介绍 Combine、Partitioner、WritableComparable、WritableComparator 使用方式）
前言本文主要介绍 MapReduce 的原理及开发,讲解如何利用 Combine.Partitioner.WritableComparator等组件对数据进行排序筛选聚合分组的功能.由于文章是针对开 ...
安装Hadoop系列 — 新建MapReduce项目
1.新建MR工程依次点击 File → New → Ohter… 选择 “Map/Reduce Project”,然后输入项目名称:mrdemo,创建新项目: 2.(这步在以后的开发中可能 ...
从Hadoop骨架MapReduce在海量数据处理模式（包括淘宝技术架构）
从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇.而神奇的东西常能勾 ...

随机推荐

润乾V4报表批量打印
背景说明在应用中,经常遇到,批量打印的需求,批量打印,顾名思义,就是点击一次打印按钮,能打印多张报表. 下面,我们来介绍一下怎么样实现批量打印的应用举例: Jsp代码 <% //rep ...
Vue 框架-04-计算属性
Vue 框架-04-计算属性计算属性是什么? 大家可以去看官网解释:计算属性和侦听器今天的第一个小实例: 为啥先放折磨一个实例,之前数据绑定的就已经可以实现了,看起来那么简单,就是为了告诉大家,当 ...
Application Context的设计
基本上每一个应用程序都会有一个自己的Application,并让它继承自系统的Application类,然后在自己的Application类中去封装一些通用的操作.其实这并不是Google所推荐的一种 ...
关于WSL(Windows上的Linux子系统)的简单介绍及安装
WSL,Windows Subsystem for Linux,就是之前的Bash on [Ubuntu on] Windows(嗯,微软改名部KPI++),在wsl环境下我们可以运行一些Linux程 ...
Unity调用安卓中的方法遇到的问题
最近在用U3D做一个简单的迷宫游戏,在项目中利用Unity制作游戏场景,在android中调用游戏场景,并在游戏结束后调用安卓方法,传递参数,退出游戏场景查找网上资料,基本上Unity调用安卓的写法 ...
Aiseesoft Data Recovery 1.1.6 专业数据恢复软件破解版
Aiseesoft Data Recovery是专业的数据恢复软件,它可以帮助你恢复几乎所有删除/丢失的文件,如照片,文件,电子邮件,音频,视频且支持从计算机,硬盘驱动器,闪存驱动器,存储卡,数码相机 ...
webshell扫描
可扫描 weevelyshell 生成或加密的shell 及各种变异webshell 目前仅支持php 支持扫描 weevelyshell 生成或加密的shell 支持扫描callback一句话s ...
[EffectiveC++]item46：需要类型转换时请为模板定义非成员函数
#003 React 组件继承自定义的组件
主题:React组件继承自定义的组件一.需求说明情况说明: 有A,B,C,D 四个组件,里面都有一些公用的逻辑,比如设置数据,获取数据,有某些公用的的属性,不想在每一个组件里面写这些属 ...
Mysql 漏洞利用（越权读取文件，实战怎么从低权限拿到root密码）[转]
cnrstar (Be My Personal Best!) | 2014-05-20 21:58 众所周知,Mysql的用户在没有File权限情况下是无法通过Load_file读文件或者通过into ...

Hadoop系列-MapReduce基础

Hadoop系列-MapReduce基础的更多相关文章

随机推荐

热门专题