hadoop-InputFormat-Split-任务并行度
首先来看 MapReduce 流程图

一个 map,一个 reduce,中间靠 shuffle 连接,shuffle 左边被划分到 map,右边被划分到 reduce
InputFormat
input 是个文件,进入 mapper 后变成一行一行,如何实现的呢?
在 hadoop 中实现的方法叫 inputFormat;
它先对 原始文件进行 切片 Split,然后把每个 Split 转换成 line;
mapreduce 是个分布式计算框架,它如何实现并行呢?
比如 1G 的数据假设划分 8 份,每份128M,那 1M 的数据呢,也划分 8 份,每份才128K,感觉不靠谱,
到底如何划分,就是我们所说的 InputFormat 中的 Split
Split 与 MapTask 并行度
在 hadoop中,MapTask 并行度是靠 Split 决定的,有多少个 Split,就有多少个 task 并行;
那如何 Split 呢?
首先明确两点:
1. HDFS 上数据文件是以 block 存储的,一个 block 默认 128M
2. Split 是逻辑上的切分,而不会像 block 一样进行物理切分
Split 方式分析
假设 HDFS 上有个文件 300M,分为 3 个 block 存储,两个block 128M,另一个 44M;
假设我们按 100M 进行切分,如图

我们知道 hadoop 任务调度有个原则叫数据本地化,就是说尽量把任务发配到存放所需数据的节点上,从而避免网络传输;
上面的划分方式,仅仅是 300M 的数据,就传输了 28+56=84M, 显然效率不会高
假设我们按 block 进行切分,如图

虽然每个任务 处理的数据量稍微大了点,但是避免了网络传输,效率比较高
总结:
1. MapTask 的并行度由切片数决定
2. 一个 切片对应一个 MapTask
3. 默认情况下,切片大小=BlockSize,这种方式也是比较高效的
4. 切片时不考虑数据集整体,而是针对单个文件进行切片
如一个数据集有3个文件,一个 300M,一个 50M,一个20M,那么第一个文件切3份,第二个文件切1份,第三个文件切1份,彼此独立切分,互不影响
hadoop-InputFormat-Split-任务并行度的更多相关文章
- Hadoop InputFormat浅析
本文转载:http://hi.baidu.com/_kouu/item/dc8d727b530f40346dc37cd1 在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动 ...
- Hadoop InputFormat
Hadoop可以处理不同数据格式(数据源)的数据,从文本文件到(非)关系型数据库,这很大程度上得益于Hadoop InputFormat的可扩展性设计,InputFormat层次结构图如下:
- Hadoop InputFormat详解
InputFormat是MapReduce编程模型包括5个可编程组件之一,其余4个是Mapper.Partitioner.Reducer和OutputFormat. 新版Hadoop InputFor ...
- Hadoop InputFormat 输入文件分片
1. Mapper 与 Reducer 数量 对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HD ...
- hadoop InputFormat 类别
FileInputFormat是所有使用文件作为数据源的InputFormat的积累.它提供两个功能:一个是定义哪些文件包含在一个作业的输入中:一个为输入文件生成分片的实现.自动将作业分块 作业分块大 ...
- Hadoop InputFormat OutputFormat
InputFormat有两个抽象方法: getSplits createRecordReader InputSplits 将数据按照Split进行切分,一个Split分给一个task执行. ...
- hadoop InputFormat getSplits
/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ public InputSpli ...
- Hadoop学习之路(十四)MapReduce的核心运行机制
概述 一个完整的 MapReduce 程序在分布式运行时有两类实例进程: 1.MRAppMaster:负责整个程序的过程调度及状态协调 2.Yarnchild:负责 map 阶段的整个数据处理流程 3 ...
- Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为 ...
随机推荐
- vue 循环Redio
标准用法,做个笔记.(图示是elementUI,其他框架大同小异) <el-radio-group @change="changePayHandler" v-model=&q ...
- 使用 suspend 和 resume 暂停和恢复线程
suspend 和 resume 的使用 在 Thread 类中有这样两个方法:suspend 和 resume,这两个方法是成对出现的. suspend() 方法的作用是将一个线程挂起(暂停), r ...
- JS广度优先查找无向无权图两点间最短路径
广度优先查找无向无权图两点间最短路径,可以将图看成是以起点为根节点的树状图,每一层是上一层的子节点,一层一层的查找,直到找到目标节点为止. 起点为0度,与之相邻的节点为1度,以此类推. // 广度优先 ...
- php获取http请求原文
1. 取得请求行:Method.URI.协议 可以从超级变量$_SERVER中获得,三个变量的值如下: $_SERVER['REQUEST_METHOD'].' '.$_SERVER['REQUEST ...
- 继承关系下的this关键字
继承关系下的this关键字 在继承关系下,父类中的this关键字并不总是表示父类中的变量和方法.this关键字的四种用法如前文所述,列举如下. 1) this(paras…); 访问其他的构造方法 2 ...
- redis 字符串数据(string)
Redis 字符串数据类型的相关命令用于管理 redis 字符串值,基本语法如下: 语法 redis 127.0.0.1:6379> COMMAND KEY_NAME 实例 redis 127. ...
- 数据库 | Redis 缓存雪崩解决方案
Redis 雪崩 缓存层承载着大量的请求,有效保护了存储层.但是如果由于缓存大量失效或者缓存整体不能提供服务,导致大量的请求到达存储层,会使存储层负载增加,这就是缓存雪崩的场景. 解决缓存雪崩,可以从 ...
- JVM菜鸟进阶高手之路一[z]
https://mp.weixin.qq.com/s/qD1LFmsOiqZHD8iZX97OfA? 问题现象 代码如下,使用 ParNew + Serial Old 回收器组合与使用 ParNew ...
- 微信小程序:undefined Expecting 'STRING', got INVALID
出现问题: 问题原因:app.json中不能出现注释
- spring cloud之docker微服务客户端注册eureka问题
正常我们起一个微服务注册到eureka他的实例id是默认这样的主机名称:服务名称:服务端口号, 如果配置eureka.instance.prefer-ip-address=true则实例id为主机Ip ...