1.Spark计算依赖内存，如果目前只有10g内存，但是需要将500G的文件排序并输出，需要如何操作？

 ①、把磁盘上的500G数据分割为100块（chunks），每份5GB。（注意，要留一些系统空间！）

②、顺序将每份5GB数据读入内存，使用quick sort算法排序。

③、把排序好的数据（也是5GB）存放回磁盘。

④、循环100次，现在，所有的100个块都已经各自排序了。（剩下的工作就是如何把它们合并排序！）

⑤、从100个块中分别读取5G/100=0.05 G入内存（100input buffers）。

⑥、执行100路合并，并将合并结果临时存储于5g基于内存的输出缓冲区中。当缓冲区写满5GB时，写入硬盘上最终文件，并清空输出缓冲区；当100个输入缓冲区中任何一个处理完毕时，写入该缓冲区所对应的块中的下一个0.05 GB，直到全部处理完成。

2.countByValue和countByKey的区别

首先从源码角度来看：

// PairRDDFunctions.scala

def countByKey(): Map[K, Long] = self.withScope {

  self.mapValues(_ => 1L).reduceByKey(_ + _).collect().toMap

}

// RDD.scala

def countByValue()(implicit ord: Ordering[T] = null): Map[T, Long] = withScope {

  map(value => (value, null)).countByKey()

}

countByValue（RDD.scala）

作用在普通的RDD上
其实现过程调用了 countByKey

countByKey（PairRDDFunctions.scala）

作用在 PairRDD 上
对 key 进行计数
数据要收到Driver端，结果集大时，不适用

问题：

countByKey 可以作用在普通的RDD上吗
countByValue 可以作用在 PairRDD 上吗

val rdd1: RDD[Int] = sc.makeRDD(1 to 10)

val rdd2: RDD[(Int, Int)] = sc.makeRDD((1 to 10).toList.zipWithIndex)

val result1 = rdd1.countByValue() //可以

val result2 = rdd1.countByKey() //语法错误

val result3 = rdd2.countByValue() //可以

val result4 = rdd2.countByKey() //可以

3.两个rdd join 什么时候有shuffle什么时候没有shuffle

其中join操作是考验所有数据库性能的一项重要指标，对于Spark来说，考验join的性能就是Shuffle,Shuffle 需要经过磁盘和网络传输，Shuffle数据越少性能越好，有时候可以尽量避免程序进行Shuffle ,那么什么情况下有Shuffle ，什么情况下没有Shuffle 呢

3.1 Broadcast join

broadcast join 比较好理解，除了自己实现外，Spark SQL 已经帮我们默认来实现了，其实就是小表分发到所有Executors，控制参数是：spark.sql.autoBroadcastJoinThreshold 默认大小是10m, 即小于这个阈值即自动使用broadcast join.

3.2 Bucket join

其实rdd方式和table类似，不同的是后者要写入Bucket表，这里主要讲rdd的方式，原理就是，当两个rdd根据相同分区方式，预先做好分区，分区结果是一致的，这样就可以进行Bucket join, 另外这种join没有预先的算子，需要在写程序时候自己来开发，对于表的这种join可以看一下字节跳动在Spark SQL上的核心优化实践。可以看下下面的例子

rdd1、rdd2都是Pair RDD

rdd1、rdd2的数据完全相同

一定有shuffle

rdd1 => 5个分区

rdd2 => 6个分区

rdd1 => 5个分区 => (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0),(1, 0), || (2,0),(1, 0), (2,0)

rdd2 => 5个分区 => (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0),(1, 0), || (2,0),(1, 0), (2,0)

一定没有shuffle

rdd1 => 5个分区 => （1,0), （1,0), （1,0), （1,0), （1,0), || (2,0), (2,0), (2,0), (2,0), (2,0), (2,0), (2,0) || 空 || 空 || 空

rdd2 => 5个分区 => （1,0), （1,0), （1,0), （1,0), （1,0), || (2,0), (2,0), (2,0), (2,0), (2,0), (2,0), (2,0) || 空 || 空 || 空

这样所有Shuffle的算子，如果数据提前做好了分区（partitionBy），很多情况下没有Shuffle.

除上面两种方式外，一般就是有Shuffle的join, 关于spark的join原理可以查看：大数据开发-Spark Join原理详解

4..transform 是不是一定不触发action

有个算子例外，那就是sortByKey,其底层有个抽样算法，水塘抽样，最后需要根据抽样的结果，进行RangePartition的,所以从job角度来说会看到两个job，除了触发action的本身算子之外，记住下面的

sortByKey → 水塘抽样→ collect

5.广播变量是怎么设计的

我们都知道，广播变量是把数据放到每个excutor上，也都知道广播变量的数据一定是从driver开始出去的，什么意思呢，如果广播表放在hive表中，那么它的存储就是在各个block块上，也对应多个excutor (不一样的叫法)，首先将数据拉到driver上，然后再进行广播，广播时候不是全部广播，是根据excutor预先用到数据的，首先拿数据，然后通过bt协议进行传输，什么是bt协议呢，就是数据在分布式点对点网络上，根据网络距离来去拉对应的数据，下载者也是上传者，这样就不同每个task （excutor）都从driver上来拉数据，这样就减少了压力，另外在spark1.几的时候还是task级别，现在是共同的一个锁，整个excutor上的task共享这份数据。

参考

https://juejin.cn/post/6844903989557854216

https://www.jianshu.com/p/6bf887bf52b2

吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。

更多请关注

大数据开发-Spark-拷问灵魂的5个问题的更多相关文章

FusionInsight大数据开发---Spark应用开发
Spark应用开发要求: 了解Spark基本原理搭建Spark开发环境开发Spark应用程序调试运行Spark应用程序 YARN资源调度,可以和Hadoop集群无缝对接 Spark适用场景大多 ...
大数据开发-Spark Join原理详解
数据分析中将两个数据集进行 Join 操作是很常见的场景.在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根据 Join hints 策略.Join 表的大小. J ...
大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖
前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD impo ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
【原创干货】大数据Hadoop/Spark开发环境搭建
已经自学了好几个月的大数据了,第一个月里自己通过看书.看视频.网上查资料也把hadoop(1.x.2.x).spark单机.伪分布式.集群都部署了一遍,但经历短暂的兴奋后,还是觉得不得门而入. 只有深 ...
大数据开发实战：HDFS和MapReduce优缺点分析
一. HDFS和MapReduce优缺点 1.HDFS的优势 HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子 ...
大数据开发实战：Stream SQL实时开发一
1.流计算SQL原理和架构流计算SQL通常是一个类SQL的声明式语言,主要用于对流式数据(Streams)的持续性查询,目的是在常见流计算平台和框架(如Storm.Spark Streaming.F ...
详解Kafka: 大数据开发最火的核心技术
详解Kafka: 大数据开发最火的核心技术架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告大数据时代来临,如果你还不知道Kafka那你就真 ...
BAT推荐免费下载JAVA转型大数据开发全链路教程（视频+源码）价值19880元
如今随着环境的改变,物联网.AI.大数据.人工智能等,是未来的大趋势,而大数据是这些基石,万物互联,机器学习都是大数据应用场景! 为什么要学习大数据?我们JAVA到底要不要转型大数据? 好比问一个程序 ...

随机推荐

浅谈IAT加密原理及过程
上一次做完代码段加密后,又接触到了新的加密方式:IAT加密 IAT加密是通过隐藏程序的导入表信息,以达到增加分析程序的难度.因为没有导入表,就无法单纯的从静态状态下分析调用了什么函数,动态调试时,也无 ...
MRP物料需求计划
1.重订货点的采购计划. 计算方式:再订货点的库存数量 = 安全库存 + 采购提前期 * 每天消耗的数量一旦库存数量触及再订货点的库存数量,需触发采购订单订购物料,理想的情况下 ,下次到采购订单收货 ...
为什么 StackOverflow 上的代码片段会摧毁你的项目？
昨天公司里碰到一件令人哑然失笑的事情.帮朋友公司做的一个项目,做SIT测试的时候发现一些bug,仔细查了下原因,原来是因为当初觉得这个项目比较简单,交给了几个新入职的新丁,也算是给他们练练手,结果其中 ...
maven版本仲裁原则
这里有一个案例是项目里依赖了b组件,b组件依赖了a组件1.0.2版本,而用户也直接在pom依赖了a组件并声明的1.0.0版本,结果在仲裁时选择了1.0.0版本的a组件: +- com.xxx:a:ja ...
移动端学习之理解WEB APP、Native APP、Hybrid APP以及React Native/uniapp包括H5、小程序等的区别与共通之处
因为工作需要,需要进一步了解移动端的开发,遂返回复习移动端的知识点,在开始学习之前,产生了疑惑WEB APP .Native APP .Hybrid APP.React Native.Uniapp.H ...
java面向对象的一些知识
(1)this和super关键字的用法 this表示调用本类实例方法和成员变量,this引用就是对一个对象的引用,如this.name 表示本类成员变量name,静态方法中不能使用this关键字. ...
死磕以太坊源码分析之MPT树-下
死磕以太坊源码分析之MPT树-下文章以及资料请查看:https://github.com/blockchainGuide/ 上篇主要介绍了以太坊中的MPT树的原理,这篇主要会对MPT树涉及的源码进行 ...
Salesforce 大数据量处理篇（一）Skinny Table
本篇参考:https://developer.salesforce.com/docs/atlas.en-us.salesforce_large_data_volumes_bp.meta/salesfo ...
机器学习之shape
shape[:2] 取彩色图片的长和宽 shape[:3]取彩色图片的长和宽和通道 img.shape[0]:图像的垂直高度 img.shape[1]:图像的水平宽度 img.shape[2]:图像的 ...
B树与B+树区别辨析
我们都知道,innodb中的索引结构使用的是B+树.B+树是一种B树的变形树,而B树又是来源于平衡二叉树.相较于平衡二叉树,B树更适合磁盘场景下文件索引系统.那为什么B树更适合磁盘场景,B+树又在B树 ...

大数据开发-Spark-拷问灵魂的5个问题