spark查看DF的partition数目及每个partition中的数据量【集群模式】
println("--------------------"+data.rdd.getNumPartitions) // 获取DF中partition的数目
val partitions = data.rdd.glom().collect() // 获取所有data下所有的partition,返回一个partition的集合
for(part <- partitions){
println(part.getClass.getName + "::::::::" + part.length) // 每个partition中的数据量
}
结果:
--------------------100
[Lorg.apache.spark.sql.Row;::::::::61516
[Lorg.apache.spark.sql.Row;::::::::61656
[Lorg.apache.spark.sql.Row;::::::::61991
[Lorg.apache.spark.sql.Row;::::::::61269
[Lorg.apache.spark.sql.Row;::::::::61654
[Lorg.apache.spark.sql.Row;::::::::61780
[Lorg.apache.spark.sql.Row;::::::::62059
[Lorg.apache.spark.sql.Row;::::::::61675
[Lorg.apache.spark.sql.Row;::::::::61339
[Lorg.apache.spark.sql.Row;::::::::61783
[Lorg.apache.spark.sql.Row;::::::::61620
[Lorg.apache.spark.sql.Row;::::::::61883
[Lorg.apache.spark.sql.Row;::::::::61631
[Lorg.apache.spark.sql.Row;::::::::61930
[Lorg.apache.spark.sql.Row;::::::::61451
[Lorg.apache.spark.sql.Row;::::::::61797
[Lorg.apache.spark.sql.Row;::::::::61367
[Lorg.apache.spark.sql.Row;::::::::61647
[Lorg.apache.spark.sql.Row;::::::::61488
[Lorg.apache.spark.sql.Row;::::::::61584
[Lorg.apache.spark.sql.Row;::::::::61733
[Lorg.apache.spark.sql.Row;::::::::61491
[Lorg.apache.spark.sql.Row;::::::::61809
[Lorg.apache.spark.sql.Row;::::::::61062
[Lorg.apache.spark.sql.Row;::::::::61658
[Lorg.apache.spark.sql.Row;::::::::61599
[Lorg.apache.spark.sql.Row;::::::::61911
[Lorg.apache.spark.sql.Row;::::::::61602
[Lorg.apache.spark.sql.Row;::::::::61348
[Lorg.apache.spark.sql.Row;::::::::61677
[Lorg.apache.spark.sql.Row;::::::::61722
[Lorg.apache.spark.sql.Row;::::::::61482
[Lorg.apache.spark.sql.Row;::::::::61714
[Lorg.apache.spark.sql.Row;::::::::61241
[Lorg.apache.spark.sql.Row;::::::::61737
[Lorg.apache.spark.sql.Row;::::::::62015
[Lorg.apache.spark.sql.Row;::::::::62062
[Lorg.apache.spark.sql.Row;::::::::61557
[Lorg.apache.spark.sql.Row;::::::::61607
[Lorg.apache.spark.sql.Row;::::::::61175
[Lorg.apache.spark.sql.Row;::::::::61653
[Lorg.apache.spark.sql.Row;::::::::61460
[Lorg.apache.spark.sql.Row;::::::::61705
[Lorg.apache.spark.sql.Row;::::::::61492
[Lorg.apache.spark.sql.Row;::::::::61340
[Lorg.apache.spark.sql.Row;::::::::61767
[Lorg.apache.spark.sql.Row;::::::::61756
[Lorg.apache.spark.sql.Row;::::::::61793
[Lorg.apache.spark.sql.Row;::::::::61417
[Lorg.apache.spark.sql.Row;::::::::61376
[Lorg.apache.spark.sql.Row;::::::::62039
[Lorg.apache.spark.sql.Row;::::::::61571
[Lorg.apache.spark.sql.Row;::::::::61849
[Lorg.apache.spark.sql.Row;::::::::61553
[Lorg.apache.spark.sql.Row;::::::::61612
[Lorg.apache.spark.sql.Row;::::::::61980
[Lorg.apache.spark.sql.Row;::::::::61714
[Lorg.apache.spark.sql.Row;::::::::62376
[Lorg.apache.spark.sql.Row;::::::::61884
[Lorg.apache.spark.sql.Row;::::::::61273
[Lorg.apache.spark.sql.Row;::::::::61669
[Lorg.apache.spark.sql.Row;::::::::61695
[Lorg.apache.spark.sql.Row;::::::::61515
[Lorg.apache.spark.sql.Row;::::::::61247
[Lorg.apache.spark.sql.Row;::::::::61909
[Lorg.apache.spark.sql.Row;::::::::61879
[Lorg.apache.spark.sql.Row;::::::::61913
[Lorg.apache.spark.sql.Row;::::::::61199
[Lorg.apache.spark.sql.Row;::::::::61678
[Lorg.apache.spark.sql.Row;::::::::61619
[Lorg.apache.spark.sql.Row;::::::::61909
[Lorg.apache.spark.sql.Row;::::::::61406
[Lorg.apache.spark.sql.Row;::::::::61775
[Lorg.apache.spark.sql.Row;::::::::61559
[Lorg.apache.spark.sql.Row;::::::::61773
[Lorg.apache.spark.sql.Row;::::::::61888
[Lorg.apache.spark.sql.Row;::::::::61634
[Lorg.apache.spark.sql.Row;::::::::61786
[Lorg.apache.spark.sql.Row;::::::::61666
[Lorg.apache.spark.sql.Row;::::::::61519
[Lorg.apache.spark.sql.Row;::::::::61563
[Lorg.apache.spark.sql.Row;::::::::61481
[Lorg.apache.spark.sql.Row;::::::::61295
[Lorg.apache.spark.sql.Row;::::::::61343
[Lorg.apache.spark.sql.Row;::::::::61750
[Lorg.apache.spark.sql.Row;::::::::61328
[Lorg.apache.spark.sql.Row;::::::::61650
[Lorg.apache.spark.sql.Row;::::::::61541
[Lorg.apache.spark.sql.Row;::::::::61397
[Lorg.apache.spark.sql.Row;::::::::61505
[Lorg.apache.spark.sql.Row;::::::::61761
[Lorg.apache.spark.sql.Row;::::::::61795
[Lorg.apache.spark.sql.Row;::::::::62291
[Lorg.apache.spark.sql.Row;::::::::61566
[Lorg.apache.spark.sql.Row;::::::::61213
[Lorg.apache.spark.sql.Row;::::::::62028
[Lorg.apache.spark.sql.Row;::::::::62634
[Lorg.apache.spark.sql.Row;::::::::61838
[Lorg.apache.spark.sql.Row;::::::::61243
[Lorg.apache.spark.sql.Row;::::::::61585
样例:
--------------------100
[Lorg.apache.spark.sql.Row;::::::::61516
[Lorg.apache.spark.sql.Row;::::::::61656
[Lorg.apache.spark.sql.Row;::::::::61991
[Lorg.apache.spark.sql.Row;::::::::61269
[Lorg.apache.spark.sql.Row;::::::::61654
[Lorg.apache.spark.sql.Row;::::::::61780
spark查看DF的partition数目及每个partition中的数据量【集群模式】的更多相关文章
- Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
- 【待补充】Spark 集群模式 && Spark Job 部署模式
0. 说明 Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式 [ Local ] 使用一个 JVM 模拟 Spark 集群 [ Standalone ...
- Spark Tachyon编译部署(含单机和集群模式安装)
Tachyon编译部署 编译Tachyon 单机部署Tachyon 集群模式部署Tachyon 1.Tachyon编译部署 Tachyon目前的最新发布版为0.7.1,其官方网址为http://tac ...
- Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析(续)
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析(续) 今天延续昨天的内容,主要对为什么一个处理会分解成多个Job执行进行解析. 让我们跟踪下Job调用过 ...
- Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析 今天通过集群运行模式观察.研究和透彻的刨析SparkStreaming的日志和web监控台. Day28 ...
- Spark集群模式概述
作者:foreyou出处:http://www.foreyou.net/2015/06/22/spark-cluster-mode-overview/声明:本文采用以下协议进行授权: 署名-非商用|C ...
- Apache Spark 2.2.0 中文文档 - 集群模式概述 | ApacheCN
集群模式概述 该文档给出了 Spark 如何在集群上运行.使之更容易来理解所涉及到的组件的简短概述.通过阅读 应用提交指南 来学习关于在集群上启动应用. 组件 Spark 应用在集群上作为独立的进程组 ...
- Spark 官方文档(2)——集群模式
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件.可以通过阅读应用提交文档了解如何在集群中提交应用. 组件 spark应用程序通过主程序的Sp ...
- Spark学习笔记3(IDEA编写scala代码并打包上传集群运行)
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行 我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包 上传至集群,来检验一下我们的sp ...
随机推荐
- Work Queues
Round-robin dispatching 默认情况下,RabbitMQ按顺序分发消息给下一个消费者.平均每个消费者会得到相同数量的消息. Message acknowledgment 为了确保消 ...
- Android内存管理篇 - adj的概念与进程adj级别控制
本文主要介绍Android的lowmemorykiller的oom_adj的相关概念,以及根据一些案例来阐述了解oom_adj对于做Android应用开发的重要意义. 一.lowmeorykiller ...
- myeclipse-common 找不到
1. 首先打开myeclipse 2. 找到myeclipse的顶部导航栏"myclipse"选项然后打开"Installation Summary..."然后 ...
- 使用google wire解决依赖注入
使用google wire解决依赖注入 google wire是golang的一个依赖注入解决的工具,这个工具能够自动生成类的依赖关系. 当我们写代码的时候,都希望,类都是一个个独立的结构,互不耦合, ...
- Jenkins入门之新建任务
简单了解了Jenkins界面之后,下面我们简单介绍一下如何使用jenkins创建一个任务.打开Jenkins web管理界面之后,点击左侧最上方的NewItem图标 便会进入如下界面 产生要输入一个构 ...
- 监控 | open-falcon | 安装
监控 | open-falcon | 安装 1. 简介 主要看中了它的水平扩展,画图比zabbix要友好,告警支持简单压缩. 绿色:基础组件: 蓝色:作图链路 红色:报警链路 橙色:域名 架构 1.1 ...
- MySQL中间件之ProxySQL(2):初试读写分离
返回ProxySQL系列文章:http://www.cnblogs.com/f-ck-need-u/p/7586194.html 1.实现一个简单的读写分离 这里通过一个简单的示例实现ProxySQL ...
- NPOI导出EXCEL报_服务器无法在发送 HTTP 标头之后追加标头
虽然发表了2篇关于NPOI导出EXCEL的文章,但是最近再次使用的时候,把以前的代码粘贴过来,居然报了一个错误: “服务器无法在发送 HTTP 标头之后追加标头” 后来也查询了很多其他同学的文章,都没 ...
- 【转】CentOS系统操作下安装相关各种软件
CentOS系统是非常强大经常应用的系统,我就对CentOS系统深入探讨学习,对大家概括讲述CentOS系统应用,希望对大家有用.虽然CentOS Linux使用了RHEL的源代码,但是由于这些源代码 ...
- MVC学习之路(1) EF 增删查改合集
首先再Model中创建一个类[WMBlogDB] public class WMBlogDB : DbContext { //连接字符串. public WMBlogDB() : base(" ...