Spark(二)【sc.textfile的分区策略源码分析】

sparkcontext.textFile()返回的是HadoopRDD！

关于HadoopRDD的官方介绍，使用的是旧版的hadoop api

ctrl+F12搜索 HadoopRDD的getPartitions方法，这里进行了分区计算

读取的是txt文件，用的是TextInputFormat的切片规则

当前spark3.0的HadoopRDD依赖于hadoop的切片规则。其中HadoopRDD用的是旧版hadoop API，还有个NewHadoopRDD用的是新版hadoop API

进去TextInputFromat的查看split方法

 public InputSplit[] getSplits(JobConf job, int numSplits)

    throws IOException {

    // 获取要操作的所有文件的属性信息

    FileStatus[] files = listStatus(job);

    // 所有文件的总大小

    long totalSize = 0;  // compute total size

    // 目标切片大小  numSplits=defaultMinPartitions

    long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);

        //默认为1

    long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.

      FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

    // generate splits

    ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);

    NetworkTopology clusterMap = new NetworkTopology();

        // 切片是以文件为单位切

    for (FileStatus file: files) {

      //获取文件大小

      long length = file.getLen();

        //文件不为空

      if (length != 0) {

       // 文件是否可切，一般普通文件都可切，如果是压缩格式，只有lzo,Bzip2可切

        if (isSplitable(fs, path)) {

            // 获取文件的块大小  默认128M

          long blockSize = file.getBlockSize();

            // 计算片大小

          long splitSize = computeSplitSize(goalSize, minSize, blockSize);

          long bytesRemaining = length;

            // 循环切片，以splitSize为基础进行切片 ， 切的片大小，最后一片有可能小于片大小的1.1倍

          while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {

            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,

                length-bytesRemaining, splitSize, clusterMap);

              // makeSplit()切片

            splits.add(makeSplit(path, length-bytesRemaining, splitSize,

                splitHosts[0], splitHosts[1]));

            bytesRemaining -= splitSize;

          }

            //剩余部分，不够一片，全部作为1片

          if (bytesRemaining != 0) {

            String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations, length

                - bytesRemaining, bytesRemaining, clusterMap);

            splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,

                splitHosts[0], splitHosts[1]));

          }

        } else {

          String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,0,length,clusterMap);

          splits.add(makeSplit(path, 0, length, splitHosts[0], splitHosts[1]));

        }

      } else {

          // 文件为空，创建一个空的切片

        //Create empty hosts array for zero length files

        splits.add(makeSplit(path, 0, length, new String[0]));

      }

    }

    sw.stop();

    if (LOG.isDebugEnabled()) {

      LOG.debug("Total # of splits generated by getSplits: " + splits.size()

          + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));

    }

    return splits.toArray(new FileSplit[splits.size()]);

  }

计算片大小:片大小的计算以所有文件的总大小计算，切片时以文件为单位进行切片。

protected long computeSplitSize(long goalSize, long minSize,

                                       long blockSize) {

    // minSize默认为1

    return Math.max(minSize, Math.min(goalSize, blockSize));

  }

总结：在大数据的计算领域，一般情况下，块大小就是片大小！

分区数过多，会导致切片大小 < 块大小。

分区数过少，task个数也会少，数据处理效率低，合理设置分区数。

Spark(二)【sc.textfile的分区策略源码分析】的更多相关文章

RocketMQ中Broker的HA策略源码分析
Broker的HA策略分为两部分①同步元数据②同步消息数据同步元数据在Slave启动时,会启动一个定时任务用来从master同步元数据 if (role == BrokerRole.SLAVE) ...
66、Spark Streaming：数据处理原理剖析与源码分析（block与batch关系透彻解析）
一.数据处理原理剖析每隔我们设置的batch interval 的time,就去找ReceiverTracker,将其中的,从上次划分batch的时间,到目前为止的这个batch interval ...
Netty源码分析（十二）----- 心跳服务之 IdleStateHandler 源码分析
什么是心跳机制? 心跳说的是在客户端和服务端在互相建立ESTABLISH状态的时候,如何通过发送一个最简单的包来保持连接的存活,还有监控另一边服务的可用性等. 心跳包的作用保活Q:为什么说心跳机制能 ...
【一起学源码-微服务】Nexflix Eureka 源码十二：EurekaServer集群模式源码分析
前言前情回顾上一讲看了Eureka 注册中心的自我保护机制,以及里面提到的bug问题. 哈哈转眼间都2020年了,这个系列的文章从12.17 一直写到现在,也是不容易哈,每天持续不断学习,输出博 ...
Java - "JUC线程池" 线程状态与拒绝策略源码分析
Java多线程系列--“JUC线程池”04之线程池原理(三) 本章介绍线程池的生命周期.在"Java多线程系列--“基础篇”01之基本概念"中,我们介绍过,线程有5种状态:新建 ...
java容器二：List接口实现类源码分析
一.ArrayList 1.存储结构动态数组elementData transient Object[] elementData; 除此之外还有一些数据 //默认初始容量 private stati ...
okhttp缓存策略源码分析：put&get方法
对于OkHttp的缓存策略其实就是在下一次请求的时候能节省更加的时间,从而可以更快的展示出数据,那在Okhttp如何使用缓存呢?其实很简单,如下: 配置一个Cache既可,其中接收两个参数:一个是缓存 ...
小记--------spark的Master的Application注册机制源码分析及Master的注册机制原理分析
原理图解: Master类位置所在:spark-core_2.11-2.1.0.jar的org.apache.spark.deploy.master下的Master类 //截取了部分代码 //处理 ...
Spring Ioc源码分析系列--Bean实例化过程(二)
Spring Ioc源码分析系列--Bean实例化过程(二) 前言上篇文章Spring Ioc源码分析系列--Bean实例化过程(一)简单分析了getBean()方法,还记得分析了什么吗?不记得了才 ...

随机推荐

转：Linux常用命令总结
学习linux也有一阵子了,现总结一些常用的linux操作命令,方便大家查找1. cd命令这个命令是最基本的也是最常用的.它用于切换当前目录,可以是绝对路径,也可以是相对路径.例:cd /root/h ...
Cobar SQL审计的设计与实现
背景介绍 Cobar简介 Cobar 是阿里开源的一款数据库中间件产品. 在业务高速增长的情况下,数据库往往成为整个业务系统的瓶颈,数据库中间件的出现就是为了解决数据库瓶颈而产生的一种中间层产品. 在 ...
算法学习->求解三角形最小路径及其值
00 问题 00-1 描述对给定高度为n的一个整数三角形,找出从顶部到底部的最小路径和.每个整数只能向下移动到与之相邻的整数. 找到一个一样的力扣题:120. 三角形最小路径和 - 力扣(LeetC ...
SpringMVC配置知识点
SpringMVC原生知识点通过idea新建一个SpringMVC的Project(新建普通的项目就行了) 填写完之后Finish就行了 (实际开发不会这么用,这么做是为了理解!) 然后就是Spri ...
从0到1使用Kubernetes系列（六）：数据持久化实战
本文是从 0 到 1 使用 Kubernetes 系列第六篇,上一篇<从 0 到 1 使用 Kubernetes 系列(五):Kubernetes Scheduling>介绍了 Kuber ...
FZU ICPC 2020 寒假训练 4 —— 模拟(二）
P1056 排座椅题目描述上课的时候总会有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情.不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下来之后,只有有限的 D 对同 ...
R数据分析：如何给结构方程画路径图，tidySEM包详解
之前一直是用semPlot这个包给来进行结构方程模型的路径绘制,自从用了tidySEM这个包后就发现之前那个包不香了,今天就给大家分享一下tidySEM. 这个包的很大特点就是所有的画图原始都是存在数 ...
OpenCV常用操作函数大全
https://blog.csdn.net/Vici__/article/details/100714822 目录 cv2常用类: 1.图片加载.显示和保存 2.图像显示窗口创建与销毁 3.图片的常用 ...
Mybatis动态传入tableName--非预编译(STATEMENT)
在使用Mybatis过程中,你可以体会到它的强大与灵活之处,由衷的为Mybatis之父点上999个赞!在使用过程中经常会遇到这样一种情况,我查询数据的时候,表名称是动态的从程序中传入的,比如我们通过m ...
[loj2304]泳池
将等于$k$差分,即小于等于$k$减去小于等于$k-1$,由于两者类似,不妨仅考虑前者令$f_{i,j}$表示仅考虑$i$列(即$n=i$时),若前$j$行都没有障碍,此时最大面积小于等于$k$的概 ...

Spark(二)【sc.textfile的分区策略源码分析】

Spark(二)【sc.textfile的分区策略源码分析】的更多相关文章

随机推荐

热门专题