Yarn下Map数控制

public List<InputSplit> getSplits(JobContext job) throws IOException {

        long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

        long maxSize = getMaxSplitSize(job);

        List splits = new ArrayList();

        List files = listStatus(job);

        for (FileStatus file : files) {

            Path path = file.getPath();

            long length = file.getLen();

            if (length != 0L) {

                FileSystem fs = path.getFileSystem(job.getConfiguration());

                BlockLocation[] blkLocations = fs.getFileBlockLocations(file,

                        0L, length);

                if (isSplitable(job, path)) {

                    long blockSize = file.getBlockSize();

                    long splitSize = computeSplitSize(blockSize, minSize,

                            maxSize);

                    long bytesRemaining = length;

                    while (bytesRemaining / splitSize > 1.1D) {

                        int blkIndex = getBlockIndex(blkLocations, length

                                - bytesRemaining);

                        splits.add(makeSplit(path, length - bytesRemaining,

                                splitSize, blkLocations[blkIndex].getHosts()));

                        bytesRemaining -= splitSize;

                    }

                    if (bytesRemaining != 0L) {

                        int blkIndex = getBlockIndex(blkLocations, length

                                - bytesRemaining);

                        splits.add(makeSplit(path, length - bytesRemaining,

                                bytesRemaining,

                                blkLocations[blkIndex].getHosts()));

                    }

                } else {

                    splits.add(makeSplit(path, 0L, length,

                            blkLocations[0].getHosts()));

                }

            } else {

                splits.add(makeSplit(path, 0L, length, new String[0]));

            }

        }

        job.getConfiguration().setLong(

                "mapreduce.input.fileinputformat.numinputfiles", files.size());

        LOG.debug("Total # of splits: " + splits.size());

        return splits;

    }

Yarn 下好像没了1*下的由用户设置预期的Map数

核心代码

long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));

getFormatMinSplitSize 默认返回1，getMinSplitSize 为用户设置的最小分片数, 如果用户设置的大于1，则为用户设置的最小分片数

long maxSize = getMaxSplitSize(job);

getMaxSplitSize为用户设置的最大分片数，默认最大为9223372036854775807L

long splitSize = computeSplitSize(blockSize, minSize,

                            maxSize);

protected long computeSplitSize(long blockSize, long minSize, long maxSize) {

        return Math.max(minSize, Math.min(maxSize, blockSize));

    }

测试文件大小 297M(311349250)

块大小128M

测试代码

测试1

FileInputFormat.setMinInputSplitSize(job, 301349250);
FileInputFormat.setMaxInputSplitSize(job, 10000);

测试后Map个数为1，由上面分片公式算出分片大小为301349250, 比 311349250小，理论应该为两个map, 再看分片函数

while (bytesRemaining / splitSize > 1.1D) {
                       int blkIndex = getBlockIndex(blkLocations, length
                               - bytesRemaining);
                       splits.add(makeSplit(path, length - bytesRemaining,
                               splitSize, blkLocations[blkIndex].getHosts()));

bytesRemaining -= splitSize;
}

只要剩余的文件大小不超过分片大小的1.1倍，则会分到一个分片中，避免开两个MAP，其中一个运行数据太小，浪费资源。

测试2

FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);

FileInputFormat.setMaxInputSplitSize(job, 10000);

MAP 数为2

测试3

在原有的输入目录下，添加一个很小的文件,几K，测试是否会合并

FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);
FileInputFormat.setMaxInputSplitSize(job, 10000);

Map数变为了3

看源代码

for (FileStatus file : files) {

}

原来输入是按照文件名来分片的，这个按照常理也能知道，不同的文件内容格式不同

总结，分片过程大概为，先遍历目标文件，过滤部分不符合要求的文件，然后添加到列表，然后按照文件名来切分分片（大小为前面计算分片大小的公式, 最后有个文件尾可能合并，其实常写网络程序的都知道），然后添加到分片列表，然后每个分片读取自身对应的部分给MAP处理

Yarn下Map数控制的更多相关文章

【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
hive 的map数和reduce如何确定（转）
转自博客:https://blog.csdn.net/u013385925/article/details/78245011(没找到原创者,该博客也是转发) 一. 控制hive任务中的map ...
Hive性能优化--map数和reduce数
转自http://superlxw1234.iteye.com/blog/1582880 一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多 ...
Linux Shell多进程并发以及并发数控制
1. 基础知识准备 1.1. linux后台进程 Unix是一个多任务系统,允许多用户同时运行多个程序.shell的元字符&提供了在后台运行不需要键盘输入的程序的方法.输入命令后,其后紧跟&a ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hive 处理小文件，减少map数
1.hive.merge.mapfiles,True时会合并map输出.2.hive.merge.mapredfiles,True时会合并reduce输出.3.hive.merge.size.per. ...

随机推荐

getResourceAsStream小结
前提:我用的是gradle工程,文件放在resource下,resource对应的就是类路径,文件的路径和代码的路径保持一致,如Client的包名和peizhi.properties一致,例如Clie ...
C# 利用ITextSharp导出PDF文件
最近项目中需要导出PDF文件,最后上网搜索了一下,发现ITextSharp比较好用,所以做了一个例子: public string ExportPDF() { //ITextSharp Usage / ...
win10 网络连接怎么删除不再使用的连接
# 打开网络共享中心->更改适配器设置->右击->选择属性->选择配置->选择驱动程序->卸载
快速排序算法的实现 && 随机生成区间里的数 && O（n）找第k小 && O(nlogk)找前k大
思路:固定一个数,把这个数放到合法的位置,然后左边的数都是比它小,右边的数都是比它大固定权值选的是第一个数,或者一个随机数因为固定的是左端点,所以一开始需要在右端点开始,找一个小于权值的数,从左端 ...
第8章 IO类
8.1 IO类 iostream istream, wistream从流中读取数据 ostream, wostream iostream, wiostream读写 ...
监听outlook新邮件
using System; using System.Linq; using Microsoft.Office.Interop.Outlook; using System.Collections.Ge ...
牛客网Java刷题知识点之内存的划分（寄存器、本地方法区、方法区、栈内存和堆内存）
不多说,直接上干货! 其中 1)程序计数器:用于指示当前线程所执行的字节码执行到了第几行,可以理解为当前线程的行号指示器.每个计数器志勇赖记录一个线程的行号,所以它是线程私有的. ...
CentOS 搭建Redis4 环境
下载 wget http://download.redis.io/releases/redis-4.0.10.tar.gz 安装步骤 tar xvf redis-4.0.10.tar.gz mak ...
jar包介绍
1.基本jar包 4+1:4个核心(beans+core+context+expression)+一个依赖(commons-logging...)
JavaScript 函数 (function)
//声明(有参数.有返回值) function fun() { var name = '小黑'; ) { name = arguments[]; //接受参数 } alert(name); retur ...

Yarn下Map数控制

Yarn下Map数控制的更多相关文章

随机推荐

热门专题