转自：http://www.crazyant.net/1423.html

Hadoop的MapReduce计算的第一个阶段是InputFormat处理的，先将文件进行切分，然后将每个切分传递给每个Map任务来执行，本文阐述切分个数，也就是Map任务数目的计算方法；

Hadoop首先会计算每个切分的大小，然后使用”文件总大小/每个切分的大小“来决定划分的总数，如果不足一个切分的大小，则当做1个；

在org.apache.hadoop.mapred.FileInputFormat中给出了计算每个划分大小的方法：

protected long computeSplitSize(long goalSize, long minSize,
long blockSize) {
return Math.max(minSize, Math.min(goalSize, blockSize));
}

其中几个变量的解释如下：

blockSize：HDFS存储的基本单元，默认为64MB或者128MB；
minSize：由用户设置的最小切分大小，配置项为mapred.min.split.size；
goalSize：计算公式为"文件总大小/用户设定的Map任务个数"，即用户间接期望的大小；

由此可以推断出选定策略：

划分大小为blockSize：blockSize小于用户期望的大小，比用户设定的最小值要大；也就是说如果用户设定的最小值太小的话，会使用block size作为划分大小；
划分大小为goalSize：用户设定了Map的任务数目，那么即使算出来的划分大小比block size小也会使用，这个时候出现了两个用户设定值：最小值和期望值，hadoop会选择两者中大的那个；
划分大小为minSize：如果用户期望的值，还有blocksize只都比用户设定的最小值要小，那么就会使用这个最小值；

针对这几个值，用户可以根据输入数据的情况，合理的设置mapred.min.split.size和map.tasks.size来实现优化，InputSplit和blockSize相同是非常好的一种方法，因为不需要拆分block了.

MapReduce文件切分个数计算方法的更多相关文章

Hadoop Mapreduce 中的FileInputFormat类的文件切分算法和host选择算法
文件切分算法文件切分算法主要用于确定InputSplit的个数以及每个InputSplit对应的数据段. FileInputFormat以文件为单位切分成InputSplit.对于每个文件,由以下三 ...
mapreduce map 的个数
在map阶段读取数据前,FileInputFormat会将输入文件分割成split.split的个数决定了map的个数.影响map个数(split个数)的主要因素有: 1) 文件的大小.当块(dfs. ...
[Android] 文件夹下文件的个数限制
Android机子的文件夹下有存放文件的个数限制,做了下测试,如下: 在创建第65534个文件时抛出了异常: java.io.IOException: open failed: ENOSPC (No ...
2.获取指定目录及子目录下所有txt文件的个数，并将这些txt文件复制到F盘下任意目录
package cn.it.text; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import ...
java统计指定目录中文件的个数和总的大小
转: 统计指定目录中文件的个数和总的大小 package file; import java.io.File; import java.util.ArrayList; public class Fil ...
键盘录入一个文件夹路径,统计该文件夹(包含子文件夹)中每种类型的文件及个数,注意:用文件类型(后缀名,不包含.(点),如："java","txt")作为key, 用个数作为value,放入到map集合中,遍历map集合
package cn.it.zuoye5; import java.io.File;import java.util.HashMap;import java.util.Iterator;import ...
Linux统计某文件夹下文件的个数
ls -l |grep "^-"|wc -l 统计某文件夹下目录的个数 ls -l |grep "^d"|wc -l 统计文件夹下文件的个数,包括子文件夹里的 ...
shell 文件个数 vs 文件夹个数
文件个数 ls -l |grep "^-"|wc -l 文件夹个数 ls -l |grep "^d"|wc -l
java基础 File 递归删除文件夹中所有文件文件夹目录(包含子目录)下的.java文件复制到e:/abc文件夹中, 并统计java文件的个数
File 递归删除文件夹中所有文件文件夹 package com.swift.kuozhan; import java.io.File; import java.util.Scanner; /*键盘录 ...

随机推荐

LeetCode OJ：First Missing Positive (第一个丢失的正数)
在leetCode上做的第一个难度是hard的题,题目如下: Given an unsorted integer array, find the first missing positive inte ...
SpringCloud教程 | 第十三篇: 断路器聚合监控(Hystrix Turbine)
版权声明:本文为博主原创文章,欢迎转载,转载请注明作者.原文超链接 ,博主地址:http://blog.csdn.net/forezp. http://blog.csdn.net/forezp/art ...
剑指offer--33.丑数
本来用数组做标志位,但是测试数据有第1500个,859963392,惹不起哦 ------------------------------------------------------------- ...
Maven入门：Maven的基本概念
本文转自:http://www.tianmaying.com/tutorial/maven-basic 看这篇文章之前,你应该先Run起来一个简单的Maven项目,先有个感性认识,然后再来听听对这些基 ...
Drools7在Intellij IDEA下的引入静态方法错误提示
问题在Intellij IDEA 2016下,默认安装了Drools的插件,但使用Drools7(其他版本应该也有问题)时发现,在DRL文件中引入的静态方法IDEA会提示"Cannot r ...
Android(Lollipop/5.0) Material Design(一) 简介
官网地址:https://developer.android.com/intl/zh-tw/design/material/index.html 使用Material Design 需要api21,即 ...
机器人研发十大热门编程语言：不死 Java、不朽 C/C ++、新贵 Python
流水的编程语言,铁打的 Java.C/C++. 进行人工智能机器人研发,应该选择哪种编程语言? 这是很多机器人专家在自身的职业生涯中都会存在的一个入门级思考.毕竟,在学习一门编程语言时,需要花费大量的 ...
window如何分区
WD官方技术支持电话:800热线800-820-6682(请于周一至周五工作日期间使用固定电话拨打,不支持手机用户)手机用户请拨打400-627 6682. 链接:https://kuyusm.tma ...
netcat 瑞士军刀
netcat被誉为网络安全界的‘瑞士军刀’,一个简单而有用的工具,透过使用TCP或UDP协议的网络连接去读写数据.它被设计成一个稳定的后门工具,能够直接由其它程序和脚本轻松驱动.同时,它也是一个功能强 ...
JS ready和onload事件比较分析
页面加载完成有两种事件: 一是ready,表示文档结构已经加载完成(不包含图片等非文字媒体文件); 二是onload,指示页面包含图片等文件在内的所有元素都加载完成.(可以说:ready 在onlo ...

MapReduce文件切分个数计算方法

转自：http://www.crazyant.net/1423.html

MapReduce文件切分个数计算方法的更多相关文章

随机推荐

热门专题