MapReduce的运行流程概述
MapReduce处理数据的大致流程
①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象
②将封装好的key-value,交给Mapper.map()------>将处理的结果写出 keyout-valueout
③ReduceTask启动Reducer,使用Reducer.reduce()处理Mapper的keyout-valueout
④OutPutFormat调用RecordWriter,将Reducer处理后的keyout-valueout写出到文件
关于这些名词的解释参考我之前的文章MapReduce计算框架的核心编程思想。
示例
需求: 统计/hello目录中每个文件的单词数量,
a-p开头的单词放入到一个结果文件中,
q-z开头的单词放入到另外一个结果文件中。
例如:
/hello/a.txt,文件大小200M
hello,hi,hadoop
hive,hadoop,hive,
zoo,spark,wow
zoo,spark,wow
...
/hello/b.txt,文件大小100M
hello,hi,hadoop
zoo,spark,wow
...
1. Map阶段(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果)
①切片(切分数据)
/hello/a.txt 200M
/hello/b.txt 100M
默认的切分策略是以文件为单位,以文件的块大小(128M)为片大小进行切片!
split0:/hello/a.txt,0-128M
split1: /hello/a.txt,128M-200M
split2: /hello/b.txt,0M-100M
②运行MapTask(进程),每个MapTask负责一片数据
split0:/hello/a.txt,0-128M--------MapTask1
split1: /hello/a.txt,128M-200M--------MapTask2
split2: /hello/b.txt,0M-100M--------MapTask3
③读取数据阶段
在MR中,所有的数据必须封装为key-value
MapTask1,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象,
RecordReader负责从每个切片的数据中读取数据,封装为key-value
LineRecordReader: 将文件中的每一行封装为一个key(offset)-value(当前行的内容)
举例:
hello,hi,hadoop----->(0,hello,hi,hadoop)
hive,hadoop,hive----->(20,hive,hadoop,hive)
zoo,spark,wow----->(30,zoo,spark,wow)
zoo,spark,wow----->(40,zoo,spark,wow)
④进入Mapper的map()阶段
map()是Map阶段的核心处理逻辑! 单词统计! map()会循环调用,对输入的每个Key-value都进行处理!
输入:(0,hello,hi,hadoop)
输出:(hello,1),(hi,1),(hadoop,1)
输入:(20,hive,hadoop,hive)
输出:(hive,1),(hadoop,1),(hive,1)
输入:(30,zoo,spark,wow)
输出:(zoo,1),(spark,1),(wow,1)
输入:(40,zoo,spark,wow)
输出:(zoo,1),(spark,1),(wow,1)
⑤将MapTask输出的记录进行分区(分组、分类)
在Mapper输出后,调用Partitioner,对Mapper输出的key-value进行分区,分区后也会排序(默认字典顺序排序)
分区规则:
- a-p开头的单词放入到一个区
- q-z开头的单词放入到另一个区
MapTask1:
0号区: (hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
1号区: (spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)
MapTask2:
0号区: ...
1号区: ...
MapTask3:
0号区: (hadoop,1),(hello,1),(hi,1),
1号区: (spark,1),(wow,1),(zoo,1)
2.Reduce阶段
①因为需求是生成两个结果文件,所以我们需要启动两个ReduceTask
ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据!
ReduceTask1: 只负责0号区
将三个MapTask,生成的0号区数据全部拷贝到ReduceTask所在的机器!
(hadoop,1),(hadoop,1),(hello,1),(hi,1),(hive,1),(hive,1)
(hadoop,1),(hello,1),(hi,1),
ReduceTask2: 只负责1号区
将三个MapTask,生成的1号区数据全部拷贝到ReduceTask所在的机器!
(spark,1),(spark,1),(wow,1) ,(wow,1),(zoo,1)(zoo,1)
(spark,1),(wow,1),(zoo,1)
②sort
ReduceTask1: 只负责0号区进行排序:
(hadoop,1),(hadoop,1),(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1)
ReduceTask2: 只负责1号区进行排序:
(spark,1),(spark,1),(spark,1),(wow,1) ,(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1)
③reduce
ReduceTask1---->Reducer----->reduce(一次读入一组数据)
何为一组数据: key相同的为一组数据
输入: (hadoop,1),(hadoop,1),(hadoop,1)
输出: (hadoop,3)
输入: (hello,1),(hello,1)
输出: (hello,2)
输入: (hi,1),(hi,1)
输出: (hi,2)
输入:(hive,1),(hive,1)
输出: (hive,2)
ReduceTask2---->Reducer----->reduce(一次读入一组数据)
输入: (spark,1),(spark,1),(spark,1)
输出: (spark,3)
输入: (wow,1) ,(wow,1),(wow,1)
输出: (wow,3)
输入:(zoo,1),(zoo,1)(zoo,1)
输出: (zoo,3)
④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出
ReduceTask1---->OutPutFormat(默认TextOutPutFormat)---->RecordWriter(LineRecoreWriter)
LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part-r-0000
hadoop 3
hello 2
hi 2
hive 2
ReduceTask2---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter)
LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part-r-0001
spark 3
wow 3
zoo 3
三、MR总结
Map阶段(MapTask): 切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort)
Reduce阶段(ReduceTask): 拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)
MapReduce的运行流程概述的更多相关文章
- hadoop笔记之MapReduce的运行流程
MapReduce的运行流程 MapReduce的运行流程 基本概念: Job&Task:要完成一个作业(Job),就要分成很多个Task,Task又分为MapTask和ReduceTask ...
- [MapReduce_3] MapReduce 程序运行流程解析
0. 说明 Word Count 程序运行流程解析 && MapReduce 程序运行流程解析 1. Word Count 程序运行流程解析 2. MapReduce 程序运行流程图
- Spark运行流程概述
Application 指用户编写的Spark应用程序,其中包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码. Driver Spark中的Driver即运行上述Ap ...
- 大数据笔记11:MapReduce的运行流程
1.基本概念 (1)Job & Task (2)JobTracker (3)TaskTracker
- MapReduce运行流程分析
研究MapReduce已经有一段时间了.起初是从分析WordCount程序开始,后来开始阅读Hadoop源码,自认为已经看清MapReduce的运行流程.现在把自己的理解贴出来,与大家分享,欢迎纠错. ...
- hadoop运行流程分析源代码级
前言: 最近一直在分析hadoop的运行流程,我们查阅了大量的资料,虽然从感性上对这个流程有了一个认识但是我总是感觉对mapreduce的运行还是没有一个全面的认识,所以决定从源代码级别对mapred ...
- Spark运行模式概述
Spark编程模型的回顾 spark编程模型几大要素 RDD的五大特征 Application program的组成 运行流程概述 具体流程(以standalone模式为例) 任务调度 DAGSche ...
- Spark基本运行流程
不多说,直接上干货! Spark基本运行流程 Application program的组成 Job : 包含多个Task 组成的并行计算,跟Spark action对应. Stage : Job 的调 ...
- Hadoop_14_MapReduce框架结构及其运行流程
1.MapReduce原理篇 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认 ...
随机推荐
- statsmodels中方差分析表结果解析
引言 通常我们在对多个变量进行统计分析的时候,结果的汇总和整理需要耗费大量的时间和精力,稍有不慎还有可能出现错误.因此在对多个变量统计分析的时候,使用自动化的脚本对结果进行整理和汇总就十分的方便了. ...
- git&github&Jenkins完成可持续集成
1.安装git :想要安装Git首先要下载Git的安装包程序. Git安装包下载地址:https://git-scm.com/downloads/ 2.双击下载git安装包进入安装界面, 点击下一步, ...
- 迁移AndroidX
1. 前言 AndroidX replaces the original support library APIs with packages in the androidx namespace. O ...
- 嵌入式QT开发视频教程-供参考
免费嵌入式QT开发视频教程 https://pan.baidu.com/s/1bprhJ2Z QT初级到高级编程视频教程--丁林松.rarhttp://www.jisoupan.com/share/2 ...
- 团队进行Alpha冲刺--冲刺总结
这个作业属于哪个课程 软件工程 (福州大学至诚学院 - 计算机工程系) 这个作业要求在哪里 团队作业第五次--Alpha冲刺 这个作业的目标 团队进行Alpha冲刺--冲刺总结 作业正文 如下 其他参 ...
- vmware 虚拟机安装失败如何解决
1.最好安装在默认路径2,安装之前先卸载之前安装的软件,卸载使用最经典的Windows软件卸载工具Windows install clean up其他方式的卸载我使用了很多次都不行,网上很多方法都看了 ...
- junit基本介绍视频笔记1
程序员每天工作的基本流程: 1.从svn检出代码: 2.运行单元测试,测试无误,进入下一步: 3.开始一天的代码编写工作: 4.代码提交到服务器之前进行单元测试: 5.单元测试通过提交到svn服务器. ...
- Win8.1卸载64位Oracle Database 11g的详细图文步骤记录
Oracle Database 11g在Win8 上的卸载过程记录. Step1停用oracle服务:进入计算机管理/任务管理器,在服务中,找到oracle开头的所有服务,右击选择停止: Step2 ...
- 使用 Prometheus-Operator 监控 Calico
原文链接:https://fuckcloudnative.io/posts/monitoring-calico-with-prometheus-operator/ Calico 中最核心的组件就是 F ...
- java List的初始化
今天在处理生成excel的时候用到了java的list,但是需要直接赋值固定的几个变量,如果先初始化然后add的方法: List<String> name = new ArrayList( ...