分布式计算框架-MapReduce 基本原理（MP用于分布式计算）

hadoop最主要的2个基本的内容要了解。上次了解了一下HDFS，本章节主要是了解了MapReduce的一些基本原理。

MapReduce文件系统：它是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce将分为两个部分：Map（映射）和Reduce（归约）。

当你向mapreduce框架提交一个计算作业，它会首先把计算作业分成若干个map任务，然后分配到不同的节点上去执行，每一个map任务处理输入数据中的一部分，当map任务完成后，它会生成一些中间文件，这些中间文件将会作为reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个map的数据汇总到一起并输出。

MapReduce的体系结构：

主从结构：主节点，只有一个：JobTracker；从节点，有很多个：Task Trackers

JobTracker负责：接收客户提交的计算任务；把计算任务分给Task Trackers执行；监控Task Tracker的执行情况；

Task Trackers负责：执行JobTracker分配的计算任务。

MapReduce是一种分布式计算模型，由google提出，主要用于搜索领域，解决海量数据的计算问题。

MR由两个阶段组成：Map和Reduce,用户只需要实现map（）和reduce()两个函数，即可实现分布式计算，非常简单。

这两个函数的形参是key、value，表示函数的输入信息。

MapReduce执行流程：

MapReduce原理：

执行步骤：

1. map任务处理

1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

1.2 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

1.3 对输出的key、value进行分区。

1.4 对不同分区的数据，按照key进行排序、分组。相同key的value放到一个集合中。

1.5 (可选)分组后的数据进行归约。

2.reduce任务处理

2.1 对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。

2.2 对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

2.3 把reduce的输出保存到文件中。

例子：实现WordCountApp

map、reduce键值对格式

函数	输入键值对	输出键值对
map()	<k1,v1>	<k2,v2>
reduce()	<k2,{v2}>	<k3,v3>

JobTracker

负责接收用户提交的作业，负责启动、跟踪任务执行。

JobSubmissionProtocol是JobClient与JobTracker通信的接口。

InterTrackerProtocol是TaskTracker与JobTracker通信的接口。

TaskTracker

负责执行任务

JobClient

是用户作业与JobTracker交互的主要接口。

负责提交作业的，负责启动、跟踪任务执行、访问任务状态和日志等。

MapReduce驱动默认的设置

InputFormat(输入)	TextInputFormat
MapperClass(map类)	IdentityMapper
MapOutputKeyClass	LongWritable
MapOutputValueClass	Text
PartitionerClass	HashPartitioner
ReduceClass	IdentityReduce
OutputKeyClass	LongWritable
OutputValueClass	Text
OutputFormatClass	TextOutputFormat

序列化的概念：

序列化（Serialization）是指把结构化对象转化为字节流。

反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。

Java序列化（java.io.Serializable）

Hadoop-序列化格式特点：

紧凑：高效使用存储空间。

快速：读写数据的额外开销小

可扩展：可透明地读取老格式的数据

互操作：支持多语言的交互

Hadoop的序列化格式：Writable

序列化在分布式环境的两大作用：进程间通信，永久存储。

Hadoop节点间通信。

MapReduce输入的处理类：

FileInputFormat:是所有以文件为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法有不同的子类--TextInputFormat进行实现的。

InPutFormat负责处理MR的输入部分。

InPutFormat的三个作用：

验证作业的输入是否规范

把输入文件切成InputSplit

提供RecordReader的实现类，把InputSplit读到Mapper中进行处理。

FileInputSplit：

◆ 在执行mapreduce之前，原始数据被分割成若干split，每个split作为一个map任务的输入，在map执行过程中split会被分解成一个个记录（key-value对），map会依次处理每一个记录。

◆ FileInputFormat只划分比HDFS block大的文件，所以FileInputFormat划分的结果是这个文件或者是这个文件中的一部分.

◆ 如果一个文件的大小比block小，将不会被划分，这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

◆ 当Hadoop处理很多小文件（文件大小小于hdfs block大小）的时候，由于FileInputFormat不会对小文件进行划分，所以每一个小文件都会被当做一个split并分配一个map任务，导致效率底下。

例如：一个1G的文件，会被划分成16个64MB的split，并分配16个map任务处理，而10000个100kb的文件会被10000个map任务处理。

TextInputFormat：

◆ TextInputformat是默认的处理类，处理普通文本文件。

◆ 文件中每一行作为一个记录，他将每一行在文件中的起始偏移量作为key，每一行的内容作为value。

◆ 默认以\n或回车键作为一行记录。

◆ TextInputFormat继承了FileInputFormat。

InputFormat类的层次结构：

分布式计算框架-MapReduce 基本原理（MP用于分布式计算）的更多相关文章

Hadoop 三剑客之 —— 分布式计算框架 MapReduce
一.MapReduce概述二.MapReduce编程模型简述三.combiner & partitioner 四.MapReduce词频统计案例 4.1 项目简介 ...
Hadoop 学习之路（三）—— 分布式计算框架 MapReduce
一.MapReduce概述 Hadoop MapReduce是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集. MapReduce作业通 ...
Hadoop 系列（三）—— 分布式计算框架 MapReduce
一.MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集. MapReduce ...
Hadoop整理三（Hadoop分布式计算框架MapReduce）
一.概念 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算.概念"Map(映射)"和"Reduce(归约)",是它们的主要思想.它极大 ...
Hadoop整理四（Hadoop分布式计算框架MapReduce）
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提 ...
2_分布式计算框架MapReduce
一.mr介绍 1.MapReduce设计理念是移动计算而不是移动数据,就是把分析计算的程序,分别拷贝一份到不同的机器上,而不是移动数据. 2.计算框架有很多,不是谁替换谁的问题,是谁更适合的问题.mr ...
大数据时代之hadoop(五)：hadoop 分布式计算框架（MapReduce）
大数据时代之hadoop(一):hadoop安装大数据时代之hadoop(二):hadoop脚本解析大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...
分布式计算框架学习笔记--hadoop工作原理
(hadoop安装方法:http://blog.csdn.net/wangjia55/article/details/53160679这里不再累述) hadoop是针对大数据设计的一个计算架构.如果你 ...
hadoop-MapReduce分布式计算框架
计算框架: MapReduce:主要用于离线计算 Storm:流式计算框架,更适合做实时计算 stack:内存计算框架,快速计算 MapReduce设计理念: --何为分布式计算 --移动计算,而不是 ...

随机推荐

itextpdf freemarker渲染
现有需求涉及到打印pdf操作,简单找了俩种方式在现有的模板上进行编辑,操作难度比较大通过freemarker生成静态页面,在进行转换html,完美. 关于动态生成pdf,网上参考的挺多的,看来看去 ...
Linux系统下用户如何膝盖FTP用户密码
其实修改ftp用户密码与修改普通用户的密码的过程是一眼高的其具体步骤如下 1.用root账户登录系统 2.使用passwd命令修改密码: 第一次输入密码后提示:The password fails t ...
KepServer与S7-1200PLC之间的OPC通信配置
对于学习上位机开发,有一种通信方式是必须要了解的,那就是OPC是OLE for Process Control的简称,然而随着技术的不断发展,人们开始对它有了新的定义,比如Open Platform ...
tcp syn-synack-ack 服务端接收ack
TCP 服务端接收到ack tcp_v4_rcv() -> tcp_v4_do_rcv() -> tcp_v4_hnd_req() + tcp_child_process()tcp_v4 ...
NO.A.0001——day01——Java概述/进制间的转换
一.什么是JAVA语言: JAVA语言是美国sun公司(Stanford University Network)在1995年推出的高级编程语言.所谓编程语言,是计算机的语言,人们可以使用 ...
transformer多头注意力的不同框架实现（tensorflow+pytorch）
多头注意力可以用以下一张图描述: 1.使用pytorch自带的库的实现 torch.nn.MultiheadAttention(embed_dim, num_heads, dropout=0.0, b ...
The Dos and Don'ts for Ceph for OpenStack
Ceph和OpenStack是一个非常有用和非常受欢迎的组合. 不过,部署Ceph / OpenStack经常会有一些容易避免的缺点 - 我们将帮助你解决它们使用 show_image_direct ...
常用linux源列表
本篇记录一些常用的源文件,后面需要用到的时候,直接进行复制粘贴即可 centos 相关 base源 [base] name=CentOS-$releasever - Base - mirrors.al ...
CSS浮动和清除浮动
1.浮动float div配合float浮动来做页面的布局,浮动最常用的地方就是用来做布局.只有一个标签设置了浮动float属性,就会变成块级标签. <!DOCTYPE html> < ...
MySQL存储索引InnoDB数据结构为什么使用B+树，而不是其他树呢？
InnoDB的一棵B+树可以存放多少行数据? 答案:约2千万为什么是这么多? 因为这是可以算出来的,要搞清楚这个问题,先从InnoDB索引数据结构.数据组织方式说起. 计算机在存储数据的时候,有最小 ...

分布式计算框架-MapReduce 基本原理（MP用于分布式计算）

分布式计算框架-MapReduce 基本原理（MP用于分布式计算）的更多相关文章

随机推荐

热门专题