Spark之常用操作

-- 筛选

val rdd = sc.parallelize(List("ABC","BCD","DEF"))

val filtered = rdd.filter(_.contains("C"))

filtered.collect()

Result:

Array[String] = Array(ABC, BCD)

-- 相乘

val rdd=sc.parallelize(List(1,2,3,4,5))

val times2 = rdd.map(_*2)

times2.collect()

Result:

Array[Int] = Array(2, 4, 6, 8, 10)

-- 分割

val rdd=sc.parallelize(List("Spark is awesome","It is fun"))

val fm=rdd.flatMap(str=>str.split(" "))

fm.collect()

Result:

Array[String] = Array(Spark, is, awesome, It, is, fun)

-- 频数

val word1=fm.map(word=>(word,1))

val wrdCnt=word1.reduceByKey(_+_)

wrdCnt.collect()

Result:

Array[(String, Int)] = Array((is,2), (It,1), (awesome,1), (Spark,1), (fun,1))

-- 交换

val cntWrd = wrdCnt.map{case (word, count) => (count, word)}

cntWrd.groupByKey().collect()

Result:

Array[(Int, Iterable[String])] = Array((1,ArrayBuffer(It, awesome, Spark, fun)), (2,ArrayBuffer(is)))

-- 排重

fm.distinct().collect()

Result:

Array[String] = Array(is, It, awesome, Spark, fun)

-- 并集

val rdd1=sc.parallelize(List('A','B'))

val rdd2=sc.parallelize(List('B','C'))

rdd1.union(rdd2).collect()

-- 交集

rdd1.intersection(rdd2).collect()

-- 笛卡尔积

rdd1.cartesian(rdd2).collect()

-- 相减

rdd1.subtract(rdd2).collect()

-- 连接

val personFruit = sc.parallelize(Seq(("Andy", "Apple"), ("Bob", "Banana"), ("Charlie", "Cherry"), ("Andy","Apricot")))

val personSE = sc.parallelize(Seq(("Andy", "Google"), ("Bob", "Bing"), ("Charlie", "Yahoo"), ("Bob","AltaVista")))

personFruit.join(personSE).collect()

Result:

Array[(String, (String, String))] = Array((Andy,(Apple,Google)), (Andy,(Apricot,Google)), (Charlie,(Cherry,Yahoo)), (Bob,(Banana,Bing)), (Bob,(Banana,AltaVista)))

-- 计数

val rdd = sc.parallelize(list('A','B','c'))

rdd.count()

Result:

long = 3

-- 展示数组

val rdd = sc.parallelize(list('A','B','c'))

rdd.collect()

Result:

Array[char] = Array(A, B, c)

-- 求和

val rdd = sc.parallelize(list(1,2,3,4))

rdd.reduce(_+_)

Result:

Int = 10

-- 截取

val rdd = sc.parallelize(list(1,2,3,4))

rdd.take(2)

Result:

Array[Int] = Array(1, 2)

-- 分别格式化

val rdd = sc.parallelize(list(1,2,3,4))

rdd.foreach(x=>println("%s*10=%s".format(x,x*10))) Result:

1*10=10 4*10=40 3*10=30 2*10=20

val rdd = sc.parallelize(list(1,2,3,4))

-- 首项

rdd.first()

Result:

Int = 1

-- 另存为

val hamlet = sc.textFile("/users/akuntamukkala/temp/gutenburg.txt")

-- 针对两个pair RDD的转化操作（rdd = {(1, 2), (3, 4), (3, 6)}  other = {(3, 9)}）

-- subtractByKey 删掉RDD 中键与other RDD 中的键相同的元素

rdd.subtractByKey(other) {(1, 2)}

-- join 对两个RDD 进行内连接

rdd.join(other) {(3, (4, 9)), (3,(6, 9))}

-- rightOuterJoin 对两个RDD 进行连接操作，确保第一个RDD 的键必须存在（右外连接）

rdd.rightOuterJoin(other) {(3,(Some(4),9)),(3,(Some(6),9))}

-- leftOuterJoin 对两个RDD 进行连接操作，确保第二个RDD 的键必须存在（左外连接）

rdd.leftOuterJoin(other) {(1,(2,None)), (3,(4,Some(9))), (3,(6,Some(9)))}

-- cogroup 将两个RDD 中拥有相同键的数据分组到一起

rdd.cogroup(other) {(1,([],[])), (3,([4, 6],[]))}

-- 返回RDD 中的所有元素
rdd.collect() {1, 2, 3, 3}

-- RDD 中的元素个数
rdd.count() 4

-- 各元素在RDD 中出现的次数
rdd.countByValue() {(1, 1),(2, 1),(3, 2)}

-- 从RDD 中返回num 个元素
rdd.take(2) {1, 2} top(num) 

-- 从RDD 中返回最前面的num个元素
rdd.top(2) {3, 3} 

-- 从RDD 中按照提供的顺序返回最前面的num 个元素
rdd.takeOrdered(2)(myOrdering) {3, 3} 

-- 从RDD 中返回任意一些元素
rdd.takeSample(false, 1) 

-- 并行整合RDD 中所有数据（例如sum）
rdd.reduce((x, y) => x + y) 9 

-- 和reduce() 一样， 但是需要提供初始值
rdd.fold(0)((x, y) => x + y) 9 

-- 和reduce() 相似， 但是通常返回不同类型的函数 
rdd.aggregate((0, 0)) 
((x, y) =>(x._1 + y, x._2 + 1), 
(x, y) =>(x._1 + y._1, x._2 + y._2)) 
(9,4) 
-- 对RDD 中的每个元素使用给定的函数
rdd.foreach(func)

Spark之常用操作的更多相关文章

spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
【三】用Markdown写blog的常用操作
本系列有五篇:分别是 [一]Ubuntu14.04+Jekyll+Github Pages搭建静态博客:主要是安装方面 [二]jekyll 的使用 :主要是jekyll的配置 [三]Markdown+ ...
php模拟数据库常用操作效果
test.php <?php header("Content-type:text/html;charset='utf8'"); error_reporting(E_ALL); ...
Mac OS X常用操作入门指南
前两天入手一个Macbook air,在装软件过程中摸索了一些基本操作,现就常用操作进行总结, 1关于触控板: 按下(不区分左右) ＝鼠标左键 control+按下 ...
mysql常用操作语句
mysql常用操作语句 1.mysql -u root -p 2.mysql -h localhost -u root -p database_name 2.列出数据库: 1.show datab ...
nodejs配置及cmd常用操作
一.cmd常用操作 1.返回根目录cd\ 2.返回上层目录cd .. 3.查找当前目录下的所有文件dir 4.查找下层目录cd window 二.nodejs配置 Node.js安装包及源码下载地址为 ...
Oracle常用操作——创建表空间、临时表空间、创建表分区、创建索引、锁表处理
摘要:Oracle数据库的库表常用操作:创建与添加表空间.临时表空间.创建表分区.创建索引.锁表处理 1.表空间 ■ 详细查看表空间使用状况,包括总大小,使用空间,使用率,剩余空间 --详细查看表空 ...
python 异常处理、文件常用操作
异常处理 http://www.jb51.net/article/95033.htm 文件常用操作 http://www.jb51.net/article/92946.htm

随机推荐

Arcgis api for javascript学习笔记(4.5版本) - 点击多边形(Polygon)并高亮显示
在现在的 arcgis_js_v45_api 版本中并没有直接提供点击Polygon对象高亮显示.需要实现如下几个步骤: 1.点击地图时,获取Polygon的Graphic对象: 2.对获取到的Gra ...
vue webpack添加jQuery
---恢复内容开始--- 在webpack.prod.conf.js文件中,找到plugins new webpack.ProvidePlugin({ $: "jquery", j ...
javascript中间AJAX
兼容访问XMLHttpRequest物: var xhr = null; if(window.XMLHttpRequest){ //非IE浏览器 xhr = window.XMLHttpRequest ...
如何控制WAP网站上输入框的默认键盘类型
百度上对这样的资料介绍很多,基本上都和这个页面是一个意思 http://www.w3school.com.cn/html5/att_input_type.asp : 语法 <input type ...
WPF中使用Hashtable剔除重复字符串(比如电话号码)
原文:WPF中使用Hashtable剔除重复字符串(比如电话号码) 本文中的输入框中的字符串是逗号隔开的,你可以换成其他特别的字符串.本篇中的亮点:1. 里面有一个玻璃样式按钮,用XAML制作2. W ...
OpenGL（六） gluLookAt和gluPerspective函数解析
在调用gluLookAt和gluPerspective函数之前一般要先调用一下glLoadIdentity函数,先说一下这个函数是做什么的. glLoadIdentity glLoadIdentity ...
基于Android开发的天气预报app(源码下载)
原文:基于Android开发的天气预报app(源码下载) 基于AndroidStudio环境开发的天气app -系统总体介绍:本天气app使用AndroidStudio这个IDE工具在Windows1 ...
.net元数据
概要现在,在.net开发平台计划,其组成编译:IL代码.资源.程序集清单和类型元数据.我们知道,IL代码就是我们编写的代码.资源就是图片文件.xml文件,及其它文件,只有不清楚的是元数据(在这里将程 ...
c# wpf 利用截屏键实现截屏功能
原文:c# wpf 利用截屏键实现截屏功能最近做一个wpf程序需要截图功能,查找资料费了一些曲折,跟大家分享一下. 先是找到了这样一份代码: static class Scr ...
Wrapped的返回值取值
Bared Wrapped using Newtonsoft.Json; using Newtonsoft.Json.Linq; string str = JsonConvert.Serial ...

Spark之常用操作

Spark之常用操作的更多相关文章

随机推荐

热门专题