Spack 内置函数

1、Map函数：通过函数传递源的每个元素，并形成新的分布式数据集。

%spark

#并行化集合生成RDD

var data = sc.parallelize(List(10,20,30))

%输出结果

data.collect
%应用map函数并传递表达式
var mapFunc = data.map(x => x+10)
mapFunc.collect

输出：Array[Int] = Array(20, 30, 40)

flatMap: 原RDD中的每一个元素,对应于新RDD里面的一个迭代器。案例 : 将RDD的每个字符串按照逗号进行分割,输出结果。

val flatMapRdd = dataRdd.flatMap(str => str.split(","))

2、Filter函数：返回一个新数据集，该数据集是通过选择函数返回true的源元素而形成的。因此，它仅检索满足给定条件的元素。

#过滤掉35

%spark

var data = sc.parallelize(List(10,20,35,40))

var filterFunc = data.filter(x => x!=35)

filterFunc.collect

输出：Array[Int] = Array(10, 20, 40)

3、count函数：返回数据集中存在的元素个数

%spark

var data = sc.parallelize(List(1,2,3,4,5))

var countFunc = data.count()

输出：5

4、Distinct函数：返回提供的数据集中的不同元素。

%spark

var data = sc.parallelize(List(10,10,20,30,40))

var distFunc = data.distinct()

distFunc.collect

5、Union函数：返回一个新数据集，其中包含不同数据集中存在的元素组合。

%spark

var data1 = sc.parallelize(List(10,20))

var data2 = sc.parallelize(List(30,40))

var unionFunc = data1.union(data2)

unionFunc.collect

输出：Array[Int] = Array(10, 20, 30, 40)

6、Intersection函数:返回一个新数据集，其中包含不同数据集中存在的元素的交集

%spark

var data1 = sc.parallelize(List(10,20,30))

var data2 = sc.parallelize(List(30,40))

var IntersectionFunc = data1.intersection(data2)

IntersectionFunc.collect

输出：Array(30)

7、Cartesian函数：生成两个数据集的笛卡尔积，并返回所有可能的对组合。一个数据集的每个元素与另一个数据集的每个元素配对。

%spark

var data1 = sc.parallelize(List(1,2,3))

var data2 = sc.parallelize(List(3,4,5))

var cartesianfunc = data1.cartesian(data2)

cartesianfunc.collect

输出：Array[(Int, Int)] = Array((1,3), (1,4), (1,5), (2,3), (3,3), (2,4), (2,5), (3,4), (3,5))

8、sortByKey函数：维护元素的顺序。它接收键值对(K，V)作为输入，按升序或降序对元素进行排序，并按顺序生成数据集。

%spark

var data = sc.parallelize(Seq(("C",3),("B",2),("D",4),("A",1),("E",5)))

data.collect

#sortByKey默认传入的参数是true，升序的

var sortFun = data.sortByKey(false)

sortFun.collect

输出：Array[(String, Int)] = Array((E,5), (D,4), (C,3), (B,2), (A,1))

9、groupByKey函数：是一种聚合操作，输入（k，value），根据k值进行分类

%spark

var data = sc.parallelize(Seq(("C",3),("C",3),("C",2),("D",4),("A",1),("E",5)))

data.collect

var groupFunc = data.groupByKey()

groupFunc.collect

输出：Array[(String, Iterable[Int])] = Array((D,CompactBuffer(4)), (A,CompactBuffer(1)), (E,CompactBuffer(5)), (C,CompactBuffer(3, 3, 2)))

10、reduceByKey函数：类似于的groupByKey聚合函数，但groupByKey中包含大量shuffle操作，而reduceByKey则能提升性能，因为它不必发送pairRDD中的所有元素，会使用本地合并器先在本地完成基本的聚合操作(先在本地根据key值合并value)，然后发送结果元素。

%spark

var data = sc.parallelize(Seq(("C",3),("C",3),("C",2),("D",4),("A",1),("E",5)))

#需要传入表达式

var reduceFunc = data.reduceByKey((value,x) => (value + x))

reduceFunc.collect

输出：Array[(String, Int)] = Array((D,4), (A,1), (C,8), (E,5))

11、cogroup函数：对不同的数据集执行，比方说，(K，V)和(K，W)并返回(K，(Iterable，Iterable))元组的数据集。此操作也称为groupWith

%spark

var data1 = sc.parallelize(Seq(("A",1),("B",2),("C",3)))

var data2 = sc.parallelize(Seq(("B",4),("C",5),("D",6)))

var cogroupFun = data1.cogroup(data2)

cogroupFun.collect

输出：Array[(String, (Iterable[Int], Iterable[Int]))] = Array((B,(CompactBuffer(2),CompactBuffer(4))), (D,(CompactBuffer(),CompactBuffer(6))), (A,(CompactBuffer(1),CompactBuffer())), (C,(CompactBuffer(3),CompactBuffer(5))))

12、First函数：始终返回数据集的第一个元素。它类似于take(1)。

%spark

var data = sc.parallelize(List(10,20,30))

data.first()

输出：Int = 10

13、take函数：它接收一个整数值(比方说，n)作为参数，并返回数据集的前n个元素的数组。

%spark

var data = sc.parallelize(List(10,20,30))

data.take(2)

输出：Array[Int] = Array(10, 20)

14、reduce函数：将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。

val c = sc.parallelize(1 to 10)

c.reduce((x, y) => x + y)//结果55

15、substract : 移除一个RDD中的内容。例如：移除RDD1中的RDD2

 val substractRDD = scalaRDD1.subtract(scalaRDD2)

16、sample: 对RDD进行采样, 传入的第一个参数是是否进行替换,第二个参数是采样的比例(返回的结果是随机的)

案例 : 在不替换的前提下,抽取RDD 10%的数据

val sampleRDD = scalaRDD1.sample(false, 0.1)

Spack 内置函数的更多相关文章

Entity Framework 6 Recipes 2nd Edition（11-12）译 -> 定义内置函数
11-12. 定义内置函数问题想要定义一个在eSQL 和LINQ 查询里使用的内置函数. 解决方案我们要在数据库中使用IsNull 函数,但是EF没有为eSQL 或LINQ发布这个函数. 假设我 ...
Oracle内置函数：时间函数，转换函数，字符串函数，数值函数，替换函数
dual单行单列的隐藏表,看不见但是可以用,经常用来调内置函数.不用新建表时间函数 sysdate 系统当前时间 add_months 作用:对日期的月份进行加减写法:add_months(日期 ...
python内置函数
python内置函数官方文档:点击在这里我只列举一些常见的内置函数用法 1.abs()[求数字的绝对值] >>> abs(-13) 13 2.all() 判断所有集合元素都为真的 ...
DAY5 python内置函数+验证码实例
内置函数用验证码作为实例字符串和字节的转换字符串到字节字节到字符串
python之常用内置函数
python内置函数,可以通过python的帮助文档 Build-in Functions,在终端交互下可以通过命令查看 >>> dir("__builtins__&quo ...
freemarker内置函数和用法
原文链接:http://www.iteye.com/topic/908500 在我们应用Freemarker 过程中,经常会操作例如字符串,数字,集合等,却不清楚Freemrker 有没有类似于Jav ...
set、def、lambda、内置函数、文件操作
set : 无序,不重复,可以嵌套 .add (添加元素) .update(接收可迭代对象)---等于批量添加 .diffrents()两个集合不同差 .sysmmetric difference( ...
SQL Server 内置函数、临时对象、流程控制
SQL Server 内置函数日期时间函数 --返回当前系统日期时间 select getdate() as [datetime],sysdatetime() as [datetime2] getd ...
Python-Day3知识点——深浅拷贝、函数基本定义、内置函数
一.深浅拷贝 import copy #浅拷贝 n1={'k1':'wu','k2':123,'k3':['carl',852]} n2=n1 n3=copy.copy(n1) print(id(n1 ...

随机推荐

java运算符1
一:算术运算符(+, -, *, /, ++, --, ) 1.+号 :可以做加法运算(加号两边为字符和数字).正数表示字符串连接符:只要+号两边其中有一边有字符串,输出时加号就充当连接 ...
ES6嵌套对象的解构
有下列对象需要解构: const obj:any[] = [ { id: 33, username: "mengsongna", realName: "孟松娜" ...
elasticsearch设置密码
ELK - X-Pack设置用户密码 enable X-Pack security vi elasticsearch.yml #首先开启x-pack插件 xpack.security.enabled: ...
Python_获取全部异常信息
import traceback try: os.getcwd('exc') except Exception: exc = traceback.format_exc() print(exc)
win10中查看开关机时间及查看admin的RID的方法
原文链接: https://www.toutiao.com/i6772133439593251339/ 打开系统的注册表键盘输入win+r组合键出现运行窗口命令输入regedit 按回车键,进入注 ...
Hadoop的Shuffle阶段
原文: https://www.toutiao.com/i6764683672772674062/ 在进入Map之前,首先会将数据从HDFS中读取,进行处理,按照字节偏移量这种之前说的形式处理为K,V ...
JS获取树的父节点及祖先节点
主体函数 export function findAllParent (node, tree, parentNodes = [], index = 0) { if (!node || node.fid ...
kafka学习笔记（一）消息队列和kafka入门
概述学习和使用kafka不知不觉已经将近5年了,觉得应该总结整理一下之前的知识更好,所以决定写一系列kafka学习笔记,在总结的基础上希望自己的知识更上一层楼.写的不对的地方请大家不吝指正,感激万分 ...
C++ 从&到&&
人类发展史,就是不断挖坑.填坑的过程. 语言发展史也是如此! 任何一门设计合理的语言,给你的限制或提供的什么特性,都不是没有代价的. C的指针指针:pointer 指针的思想起源于汇编.指针思想是编 ...
《剑指offer》面试题17. 打印从1到最大的n位数
问题描述输入数字 n,按顺序打印出从 1 到最大的 n 位十进制数.比如输入 3,则打印出 1.2.3 一直到最大的 3 位数 999. 示例 1: 输入: n = 1 输出: [1,2,3,4,5 ...

Spack 内置函数

Spack 内置函数的更多相关文章

随机推荐

热门专题