spark RDD的元素顺序（ordering）测试

通过实验发现：

foreach()遍历的顺序是乱的

但：

collect()取到的结果是依照原顺序的

take()取到的结果是依照原顺序的

为什么呢？？？？

另外，可以发现：

take()取到了指定数目的元素，就不再多取了

scala> val rdd = sc.makeRDD((0 to 9), 4)

scala> rdd.collect

res27: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> rdd.partitions

res13: Array[org.apache.spark.Partition] = Array(org.apache.spark.rdd.ParallelCollectionPartition@691, org.apache.spark.rdd.ParallelCollectionPartition@692, org.apache.spark.rdd.ParallelCollectionPartition@693, org.apache.spark.rdd.ParallelCollectionPartition@694)

scala> rdd.foreach(print(_))

0178923456

scala> rdd.foreach(print(_))

5623401789

scala> rdd.coalesce(1, false).foreach(print _)

0123456789

scala> rdd.coalesce(1, false).partitions

res28: Array[org.apache.spark.Partition] = Array(CoalescedRDDPartition(0,ParallelCollectionRDD[0] at makeRDD at <console>:21,[I@63a3554,None))

scala> rdd.foreachPartition((x:Iterator[Int])=>println(x.next))

2

0

5

7

scala> rdd.mapPartitions((x:Iterator[Int])=>Array(x.next()).iterator).collect

res4: Array[Int] = Array(0, 2, 5, 7)

scala> rdd.keyBy((x:Int)=>x/4).collect

res27: Array[(Int, Int)] = Array((0,0), (0,1), (0,2), (0,3), (1,4), (1,5), (1,6), (1,7), (2,8), (2,9))

scala> rdd.groupBy(_/4).collect

res7: Array[(Int, Iterable[Int])] = Array((0,CompactBuffer(0, 1, 2, 3)), (1,CompactBuffer(4, 5, 6, 7)), (2,CompactBuffer(8, 9)))

scala> val jr = rdd.toJavaRDD

jr: org.apache.spark.api.java.JavaRDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:21

scala> jr.collectPartitions(Array(0,1))

res20: Array[java.util.List[Int]] = Array([0, 1], [2, 3, 4])

implicit object StringAccumulator extends org.apache.spark.AccumulatorParam[String]{

def addInPlace(r1: String, r2: String) = r1 + "," + r2

def zero(initialValue: String) = ""

}

scala> val a = sc.accumulator("")

a: org.apache.spark.Accumulator[String] = 

scala> sc.parallelize(0 to 1000, 99).flatMap((i:Int)=>{a+="f1-"+i; (i*2 to i*2 + 1)}).flatMap((i:Int)=>{a+="f2-"+i; (i*2 to i*2 + 1)}).take(10)

res2: Array[Int] = Array(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)

scala> a

res3: org.apache.spark.Accumulator[String] = ,,f1-0,f2-0,f2-1,f1-1,f2-2,f2-3,f1-2,f2-4

spark RDD的元素顺序（ordering）测试的更多相关文章

spark rdd元素println
1.spark api主要分两种:转换操作和行动操作.如果在转化操作中println spark打印了我也看不到. val result = sqlContext.sql(sql) val resu ...
Spark RDD 算子总结
Spark算子总结算子分类 Transformation(转换) 转换算子含义 map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 filter(func) ...
Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
spark RDD编程，scala版本
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark RDD编程核心
一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建.转换.调用求值. 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式 ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark RDD（Resilient Distributed Datasets）论文
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Spark RDD 操作
1. Spark RDD 创建操作 1.1 数据集合 parallelize 可以创建一个能够并行操作的RDD.其函数定义如下: ) scala> sc.defaultParallelism ...
Spark RDD Transformation 简单用例（三）
cache和persist 将RDD数据进行存储,persist(newLevel: StorageLevel)设置了存储级别,cache()和persist()是相同的,存储级别为MEMORY_ON ...

随机推荐

UVaLive 6859 Points (几何，凸包)
题意:给定 n 个点,让你用最长的周长把它们严格包围起来,边长只能用小格子边长或者是小格子对角线. 析:先把每个点的上下左右都放到一个集合中,然后求出一个凸包,然后先边长转成题目的方式,也好转两个点的 ...
Spring Data JPA教程，第一部分: Configuration（翻译）
Spring Data JPA项目旨在简化基于仓库的JPA的创建并减少与数据库交互的所需的代码量.本人在自己的工作和个人爱好项目中已经使用一段时间,它却是是事情如此简单和清洗,现在是时候与你分享我的知 ...
C#学习笔记（六）：可空类型、匿名方法和迭代器
可空类型为啥要引入可空类型? 在数据库中,字段是可以为null值的,那么在C#中为了方便的操作数据库的值,微软引入了可空类型. 声明可空类型我们可以使用两种方法声明一个可空类型: Nullable ...
ecshop后台限制IP登录
ecshop是开源系统,所以难免会有漏洞黑客攻击网站,往往是通过漏洞获取后台管理员权限,然后再做一些破坏如果我们在后台文件里限制指定的IP才能登录后台,就相对安全多了下面给出大家解决方案: ...
MongoDB 快速入门--高级
引用 --------->DBRefs DBRef的形式: { $ref : , $id : , $db : } $ref:集合名称 $id:引用的id $db:数据库名称,可选参数 { &qu ...
C++ 预编译头文件
1.解决什么问题? C++ 编译器是单独,分别编译的,每个cpp文件,进行预编译(也就是对#include,define 等进行文本替换),生成编译单元.编译单元是一个自包含文件,C++编译器对编译单 ...
Codeforces Round #334 (Div. 2) C. Alternative Thinking 贪心
C. Alternative Thinking Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/contest/6 ...
Codeforces Round #327 (Div. 2) A. Wizards' Duel 水题
A. Wizards' Duel Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/contest/591/prob ...
cuda-convnet 卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明:
卷积神经网络一般性结构卷积核个数和输入输出的关系以及输入输出的个数的说明: 以cifar-10为例: Initialized data layer 'data', producing3072 ou ...
C 高级编程 1
内存管理层次: 硬件层次: 内存结构管理内核算层次: 内存映射堆扩展数据结构层次: 智能指针: stl :在多线程,共享内存有问题 SGI公司实现了STL ,开发了OPENGL库语言层次:C: ...

spark RDD的元素顺序（ordering）测试

spark RDD的元素顺序（ordering）测试的更多相关文章

随机推荐

热门专题