hadoop-InputFormat-Split-任务并行度

努力的孔子 2024-10-01 20:44:24 原文

首先来看 MapReduce 流程图

一个 map，一个 reduce，中间靠 shuffle 连接，shuffle 左边被划分到 map，右边被划分到 reduce

InputFormat

input 是个文件，进入 mapper 后变成一行一行，如何实现的呢？

在 hadoop 中实现的方法叫 inputFormat；

它先对原始文件进行切片 Split，然后把每个 Split 转换成 line；

mapreduce 是个分布式计算框架，它如何实现并行呢？

比如 1G 的数据假设划分 8 份，每份128M，那 1M 的数据呢，也划分 8 份，每份才128K，感觉不靠谱，

到底如何划分，就是我们所说的 InputFormat 中的 Split

Split 与 MapTask 并行度

在 hadoop中，MapTask 并行度是靠 Split 决定的，有多少个 Split，就有多少个 task 并行；

那如何 Split 呢？

首先明确两点：

1. HDFS 上数据文件是以 block 存储的，一个 block 默认 128M

2. Split 是逻辑上的切分，而不会像 block 一样进行物理切分

Split 方式分析

假设 HDFS 上有个文件 300M，分为 3 个 block 存储，两个block 128M，另一个 44M；

假设我们按 100M 进行切分，如图

我们知道 hadoop 任务调度有个原则叫数据本地化，就是说尽量把任务发配到存放所需数据的节点上，从而避免网络传输；

上面的划分方式，仅仅是 300M 的数据，就传输了 28+56=84M，显然效率不会高

假设我们按 block 进行切分，如图

虽然每个任务处理的数据量稍微大了点，但是避免了网络传输，效率比较高

总结：

1. MapTask 的并行度由切片数决定

2. 一个切片对应一个 MapTask

3. 默认情况下，切片大小=BlockSize，这种方式也是比较高效的

4. 切片时不考虑数据集整体，而是针对单个文件进行切片

如一个数据集有3个文件，一个 300M，一个 50M，一个20M，那么第一个文件切3份，第二个文件切1份，第三个文件切1份，彼此独立切分，互不影响

hadoop-InputFormat-Split-任务并行度的更多相关文章

Hadoop InputFormat浅析
本文转载:http://hi.baidu.com/_kouu/item/dc8d727b530f40346dc37cd1 在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动 ...
Hadoop InputFormat
Hadoop可以处理不同数据格式(数据源)的数据,从文本文件到(非)关系型数据库,这很大程度上得益于Hadoop InputFormat的可扩展性设计,InputFormat层次结构图如下:
Hadoop InputFormat详解
InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper.Partitioner.Reducer和OutputFormat. 新版Hadoop InputFor ...
Hadoop InputFormat 输入文件分片
1. Mapper 与 Reducer 数量对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HD ...
hadoop InputFormat 类别
FileInputFormat是所有使用文件作为数据源的InputFormat的积累.它提供两个功能:一个是定义哪些文件包含在一个作业的输入中:一个为输入文件生成分片的实现.自动将作业分块作业分块大 ...
Hadoop InputFormat OutputFormat
InputFormat有两个抽象方法: getSplits createRecordReader InputSplits 将数据按照Split进行切分,一个Split分给一个task执行. ...
hadoop InputFormat getSplits
/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ public InputSpli ...
Hadoop学习之路（十四）MapReduce的核心运行机制
概述一个完整的 MapReduce 程序在分布式运行时有两类实例进程: 1.MRAppMaster:负责整个程序的过程调度及状态协调 2.Yarnchild:负责 map 阶段的整个数据处理流程 3 ...
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...

随机推荐

ACM之路（18）—— 矩阵
矩阵是干什么的呢?一句话来说就是,知道相邻两个函数的递推关系和第一个数,让你递推到第n个数.显然,如果n很大,那么一个一个递推过去是会超时的.所以矩阵就是用来解决这种快速递推的问题的. 比方说斐波那契 ...
psql物化视图自动更新
更新物化视图示例 CREATE TABLE model.test ( id SERIAL PRIMARY KEY, name VARCHAR(60)); . 创建物化视图 CREATE MATERIA ...
C++ STL——string和vector
目录一 STL基本概念二 string容器三 vector容器 3.1 vector动态增长原理 3.2 vector构造函数 3.3 vector常用赋值操作 3.4 vector大小操作 3 ...
LC 740. Delete and Earn
Given an array nums of integers, you can perform operations on the array. In each operation, you pic ...
Android的内部存储
路径:/data/data/包名/ this.getCacheDir() = /data/data/com.example.qq/cache/ getFilesDir() = /data/data/c ...
PCL中有哪些可用的PointT类型(3)
博客转载自:http://www.pclcn.org/study/shownews.php?lang=cn&id=268 PointXYZRGBNormal - float x, y, z, ...
[CDH] Cloudera's Distribution including Apache Hadoop
You may choose to install spark, yarn, hive, etc one by one. [Spark] 00 - Install Hadoop & Spark ...
vi/vim命令使用
首先讲一些vim和vi的区别: 它们都是多模式编辑器,不同的是vim是vi的升级版本,它不仅兼容vi的所有指令,而且还有一些新的特性在里面.vim的这些优势主要体现在以下几个方面:1.多级撤消我们知道 ...
delphi ADOCONNECTION异常拦截
elphi ADOCONNECTION错误拦截错误框标题: Debugger Exception Notification内容: Project KJXX.exe raised excepti ...
HDFS文件目录操作代码
分布式文件系统HDFS中对文件/目录的相关操作代码,整理了一下,大概包括以下部分: 文件夹的新建.删除.重命名文件夹中子文件和目录的统计文件的新建及显示文件内容文件在local和remote间的 ...