【原创】大叔经验分享（15）spark sql limit实现原理

之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html
下面看spark sql中limit的实现，首先看执行计划：

spark-sql> explain select * from test1 limit 10;
== Physical Plan ==
CollectLimit 10
+- HiveTableScan [id#35], MetastoreRelation temp, test1
Time taken: 0.201 seconds, Fetched 1 row(s)

limit对应的CollectLimit，对应的实现类是

org.apache.spark.sql.execution.CollectLimitExec

case class CollectLimitExec(limit: Int, child: SparkPlan) extends UnaryExecNode {

...

  protected override def doExecute(): RDD[InternalRow] = {

    val locallyLimited = child.execute().mapPartitionsInternal(_.take(limit))

    val shuffled = new ShuffledRowRDD(

      ShuffleExchange.prepareShuffleDependency(

        locallyLimited, child.output, SinglePartition, serializer))

    shuffled.mapPartitionsInternal(_.take(limit))

  }

可见实现非常简单，首先调用SparkPlan.execute得到结果的RDD，然后从每个partition中取前limit个row得到一个新的RDD，然后再将这个新的RDD变成一个分区，然后再取前limit个，这样就得到最终的结果。

【原创】大叔经验分享（15）spark sql limit实现原理的更多相关文章

【原创】经验分享：一个小小emoji尽然牵扯出来这么多东西？
前言之前也分享过很多工作中踩坑的经验: 一个线上问题的思考:Eureka注册中心集群如何实现客户端请求负载及故障转移? [原创]经验分享:一个Content-Length引发的血案(almost.. ...
Lucene底层原理和优化经验分享(1)-Lucene简介和索引原理
Lucene底层原理和优化经验分享(1)-Lucene简介和索引原理 2017年01月04日 08:52:12 阅读数:18366 基于Lucene检索引擎我们开发了自己的全文检索系统,承担起后台PB ...
第7章 Spark SQL 的运行原理（了解）
第7章 Spark SQL 的运行原理(了解) 7.1 Spark SQL运行架构 Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析.绑定.优化.执行.Spark SQL会先将 ...
【原创】大叔经验分享（12）如何程序化kill提交到spark thrift上的sql
spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hiv ...
【原创】大叔经验分享（23）spark sql插入表时的文件个数研究
spark sql执行insert overwrite table时,写到新表或者新分区的文件个数,有可能是200个,也有可能是任意个,为什么会有这种差别? 首先看一下spark sql执行inser ...
【原创】大叔经验分享（84）spark sql中设置hive.exec.max.dynamic.partitions无效
spark 2.4 spark sql中执行 set hive.exec.max.dynamic.partitions=10000; 后再执行sql依然会报错: org.apache.hadoop.h ...
【原创】大叔经验分享（60）hive和spark读取kudu表
从impala中创建kudu表之后,如果想从hive或spark sql直接读取,会报错: Caused by: java.lang.ClassNotFoundException: com.cloud ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
【原创】大叔经验分享（55）spark连接kudu报错
spark-2.4.2kudu-1.7.0 开始尝试 1)自己手工将jar加到classpath spark-2.4.2-bin-hadoop2.6+kudu-spark2_2.11-1.7.0-cd ...

随机推荐

lvs--小白博客
lvs 一.负载均衡LVS基本介绍 LVS是 Linux Virtual Server 的简称,也就是Linux虚拟服务器.这是一个由章文嵩博士发起的一个开源项目,它的官方网站是 http://www ...
PHP实现微信企业付款
一.封装微信企业付款类WeiXinPayToUser,如下图代码所示: class WeixinPayToUser { /** * API 参数 * @var array * 'mch_appid' ...
Outlook插件开发（非VSTO），欢迎交流
https://www.cnblogs.com/Charltsing/p/OutlookSample.html 联系QQ:564955427 最近写了个Outlook插件,实现了读取邮件联系人的功能, ...
数据库和SQL面试题基础知识（持续更新）
数据库方面基础知识复习常问小问题: 一.like查询大小写问题: sql查询结果去重 SELECT distinct name FROM 表:平均数avg 一.like查询大小写问题: ①用bina ...
Lodop简答问答大全
其他相关简短问答:Lodop简短问答客户反馈篇及排查步骤及注册相关,Lodop某个电脑打印内容大小有问题,LODOP超文本简短问答和相关内容,LODOP.C-Lodop简短排查语句.Lodop.c ...
wrk编译报错gcc: Command not found
报错信息如下: 问题原因:没有安装gcc 解决办法: yum -y install gcc+ gcc-c++ 若需升级gcc,则采用如下命令: yum -y update gcc
C#嵌入动态链接库到可执行文件
C#嵌入动态链接库到可执行文件将需要被集成的程序集放在项目的lib文件夹中,引用路径从解决方案开始,以“.”连接. 如图(解决方案名称为莫非): 核心代码: AppDomain.CurrentDom ...
BZOJ2527[Poi2011]Meteors——整体二分+树状数组
题目描述 Byteotian Interstellar Union (BIU) has recently discovered a new planet in a nearby galaxy. The ...
清北澡堂 Day2 下午一些比较重要的数论知识整理
1.欧拉定理设x1,x2,.....,xk,k=φ(n)为1~n中k个与n互质的数结论一:axi与axj不同余结论二:gcd(axi,n)=1 结论三:x1,x2,...,xk和ax1,ax2, ...
rest framework 分页，版本
分页分页器的引入 from rest_framework.pagination import PageNumberPagination, LimitOffsetPagination, CursorP ...

【原创】大叔经验分享（15）spark sql limit实现原理

【原创】大叔经验分享（15）spark sql limit实现原理的更多相关文章

随机推荐

热门专题