MapReduce处理数据的大致流程

InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象

②将封装好的key-value,交给Mapper.map()------>将处理的结果写出 keyout-valueout

ReduceTask启动Reducer,使用Reducer.reduce()处理Mapper的keyout-valueout

④OutPutFormat调用RecordWriter,将Reducer处理后的keyout-valueout写出到文件

关于这些名词的解释参考我之前的文章MapReduce计算框架的核心编程思想

示例

需求: 统计/hello目录中每个文件的单词数量,

a-p开头的单词放入到一个结果文件中,

q-z开头的单词放入到另外一个结果文件中。

例如:

/hello/a.txt,文件大小200M

hello,hi,hadoop

hive,hadoop,hive,

zoo,spark,wow

zoo,spark,wow

...

/hello/b.txt,文件大小100M

hello,hi,hadoop

zoo,spark,wow

...

1. Map阶段(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果)

①切片(切分数据)

/hello/a.txt 200M

/hello/b.txt 100M

默认的切分策略是以文件为单位,以文件的块大小(128M)为片大小进行切片!

split0:/hello/a.txt,0-128M

split1: /hello/a.txt,128M-200M

split2: /hello/b.txt,0M-100M

②运行MapTask(进程),每个MapTask负责一片数据

split0:/hello/a.txt,0-128M--------MapTask1

split1: /hello/a.txt,128M-200M--------MapTask2

split2: /hello/b.txt,0M-100M--------MapTask3

③读取数据阶段

在MR中,所有的数据必须封装为key-value

MapTask1,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象,

RecordReader负责从每个切片的数据中读取数据,封装为key-value

LineRecordReader: 将文件中的每一行封装为一个key(offset)-value(当前行的内容)

举例:

hello,hi,hadoop----->(0,hello,hi,hadoop)

hive,hadoop,hive----->(20,hive,hadoop,hive)

zoo,spark,wow----->(30,zoo,spark,wow)

zoo,spark,wow----->(40,zoo,spark,wow)

④进入Mapper的map()阶段

map()是Map阶段的核心处理逻辑! 单词统计! map()会循环调用,对输入的每个Key-value都进行处理!

输入:(0,hello,hi,hadoop)

输出:(hello,1),(hi,1),(hadoop,1)

输入:(20,hive,hadoop,hive)

输出:(hive,1),(hadoop,1),(hive,1)

输入:(30,zoo,spark,wow)

输出:(zoo,1),(spark,1),(wow,1)

输入:(40,zoo,spark,wow)

输出:(zoo,1),(spark,1),(wow,1)

⑤将MapTask输出的记录进行分区(分组、分类)

在Mapper输出后,调用Partitioner,对Mapper输出的key-value进行分区,分区后也会排序(默认字典顺序排序)

分区规则:

  • a-p开头的单词放入到一个区
  • q-z开头的单词放入到另一个区

    MapTask1:

    0号区: (hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)

    1号区: (spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)

MapTask2:

0号区: ...

1号区: ...

MapTask3:

0号区: (hadoop,1),(hello,1),(hi,1),

1号区: (spark,1),(wow,1),(zoo,1)

2.Reduce阶段

①因为需求是生成两个结果文件,所以我们需要启动两个ReduceTask

ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据!

ReduceTask1: 只负责0号区

将三个MapTask,生成的0号区数据全部拷贝到ReduceTask所在的机器!

(hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)

(hadoop,1),(hello,1),(hi,1),

ReduceTask2: 只负责1号区

将三个MapTask,生成的1号区数据全部拷贝到ReduceTask所在的机器!

(spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)

(spark,1),(wow,1),(zoo,1)

②sort

ReduceTask1: 只负责0号区进行排序:

(hadoop,1),(hadoop,1),(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1)

ReduceTask2: 只负责1号区进行排序:

(spark,1),(spark,1),(spark,1),(wow,1) ,(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1)

③reduce

ReduceTask1---->Reducer----->reduce(一次读入一组数据)

何为一组数据: key相同的为一组数据

输入: (hadoop,1),(hadoop,1),(hadoop,1)

输出: (hadoop,3)

输入: (hello,1),(hello,1)

输出: (hello,2)

输入: (hi,1),(hi,1)

输出: (hi,2)

输入:(hive,1),(hive,1)

输出: (hive,2)

ReduceTask2---->Reducer----->reduce(一次读入一组数据)

输入: (spark,1),(spark,1),(spark,1)

输出: (spark,3)

输入: (wow,1) ,(wow,1),(wow,1)

输出: (wow,3)

输入:(zoo,1),(zoo,1)(zoo,1)

输出: (zoo,3)

④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出

ReduceTask1---->OutPutFormat(默认TextOutPutFormat)---->RecordWriter(LineRecoreWriter)

LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割

在输出目录中,生成文件part-r-0000

hadoop 3

hello 2

hi 2

hive 2

ReduceTask2---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter)

LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割

在输出目录中,生成文件part-r-0001

spark 3

wow 3

zoo 3

三、MR总结

Map阶段(MapTask): 切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort)

Reduce阶段(ReduceTask): 拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)

MapReduce的运行流程概述的更多相关文章

  1. hadoop笔记之MapReduce的运行流程

    MapReduce的运行流程 MapReduce的运行流程 基本概念: Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask ...

  2. [MapReduce_3] MapReduce 程序运行流程解析

    0. 说明 Word Count 程序运行流程解析 &&  MapReduce 程序运行流程解析 1. Word Count 程序运行流程解析 2. MapReduce 程序运行流程图

  3. Spark运行流程概述

    Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码. Driver Spark中的Driver即运行上述Ap ...

  4. 大数据笔记11:MapReduce的运行流程

    1.基本概念 (1)Job & Task (2)JobTracker (3)TaskTracker

  5. MapReduce运行流程分析

    研究MapReduce已经有一段时间了.起初是从分析WordCount程序开始,后来开始阅读Hadoop源码,自认为已经看清MapReduce的运行流程.现在把自己的理解贴出来,与大家分享,欢迎纠错. ...

  6. hadoop运行流程分析源代码级

    前言: 最近一直在分析hadoop的运行流程,我们查阅了大量的资料,虽然从感性上对这个流程有了一个认识但是我总是感觉对mapreduce的运行还是没有一个全面的认识,所以决定从源代码级别对mapred ...

  7. Spark运行模式概述

    Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成 运行流程概述 具体流程(以standalone模式为例) 任务调度 DAGSche ...

  8. Spark基本运行流程

    不多说,直接上干货! Spark基本运行流程 Application program的组成 Job : 包含多个Task 组成的并行计算,跟Spark action对应. Stage : Job 的调 ...

  9. Hadoop_14_MapReduce框架结构及其运行流程

    1.MapReduce原理篇 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认 ...

随机推荐

  1. 使用SSH远程管理时本地文件被修改了

    背景: 有两个网段:1段作为工作网段即员工办公用:2段作为专用网段配置了一系列需要的环境. 在Ubuntu 16.04用Python的SSH工具在对这两个网段远程管理,我写了一个检测环境的脚本,用SF ...

  2. 单例模式的DCL方式,您不可不知道的知识点

    单例模式的DCL是一种比较好的单例实现方式,面试中被问及的频率非常高,考察的方式也多种多样.这里简单整理了一下,这里面的每一个点最好都能够做到烂熟于心: 1 public class Test { 2 ...

  3. 动态调试 别人写的jar包

    在别人的jar应用程序里: 在VMoption选项中添加: -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=50064 或者 ...

  4. 【spring】循环依赖 Java Vs Spring

    菜瓜:水稻,这次我特意去看了java的循环依赖 水稻:哟,有什么收获 菜瓜:两种情况,构造器循环依赖,属性循环依赖 构造器循环依赖在逻辑层面无法通过.对象通过构造函数创建时如果需要创建另一个对象,就会 ...

  5. C#结构体struct -0029

    结构体 有时候我们仅需要一个小的数据结构,类提供的功能多于我们需要的功能:考虑到性能原因,最好使用结构体. 结构体是值类型,存储在栈中或存储为内联(如果结构体是存储在堆中的另一个对象的一部分). 例如 ...

  6. django 注册后台管理 在debug=true能行,在debug=false不能显示出管理标签

    debug=true 下,如下图:

  7. 键盘侠Linux干货| ELK(Elasticsearch + Logstash + Kibana) 搭建教程

    前言 Elasticsearch + Logstash + Kibana(ELK)是一套开源的日志管理方案,分析网站的访问情况时我们一般会借助 Google / 百度 / CNZZ 等方式嵌入 JS ...

  8. 微信小程序点击保存图片到本地相册——踩坑

    在微信小程序中要保存图片到本地相册,需要获取相册权限. 总之整个功能实现下来需要如下几个小程序的API:wx.getSetting,wx.authorize,wx.openSetting,wx.dow ...

  9. No configuration file found and no output filename configured via Cli option.报错

    webpack手动配置webpack.config.js文件,打包时出现的报错,可以试试这种解决方案 报错如下: No configuration file found and no output f ...

  10. day18__文件操作

    一.3 种模式 r: 只读模式,        r+: 读写模式,覆盖开头内容 w: 写模式,全覆盖 (如果是没有的文件则重新创建空文件) a+:  读写模式,从最开头写,覆盖开头内容 (如果是没有的 ...