定义不带参数也不带返回值的函数(def :定义函数的关键字  printz:方法名称)

scala> def printz = print("scala hello")
 
定义带参数也带返回值的函数(这种函数在定义时也可以不带返回值的类型,scala会自动推算出。建议还是带上)
scala> def minNum(x:Int,y:Int):Int = if(x>y) x else y    //:Int 是该函数的返回值类型
minNum: (x: Int, y: Int)Int
调用函数
scala> minNum(,)
res10: Int =
 
 
创建一个map
scala> val colors = Map("red" -> "#FF0000", "azure" -> "#F0FFFF")
colors: scala.collection.immutable.Map[String,String] = Map(red -> #FF0000, azur
e -> #F0FFFF)
将map中的每一个元素中的第一个元组与第二个元组交换位置
'_':表示map的元组,
x._2:map中每一个元素的第二个元组(#FF0000,"#F0FFFF")
scala> colors.map(x=>(x._2,x._1))
res0: scala.collection.immutable.Map[String,String] = Map(#FF0000 -> red, #F0FFF
F -> azure)
 
union(合并rdd)
scala> var rdd1=sc.parallelize(List(,,,))//创建rdd1
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[] at parallelize at <console>:
scala> var rdd2=sc.parallelize(List(,,,))//创建rdd2
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[] at parallelize at <console>:
scala> var unionRes=rdd1 union rdd2 //合并rdd
unionRes: org.apache.spark.rdd.RDD[Int] = UnionRDD[] at union at <console>:
scala> unionRes.collect       //查合并后的rdd
res19: Array[Int] = Array(, , , , , , , )
 
join 类似于sql中的内连,左外链接,右外链接
创建rdd
scala> var rdd1=sc.parallelize(List((,"spark"),(,"hadoop"),(,"scala"),(,"java"))) //创建rdd1
rdd1: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[] at parallelize at <console>:
scala> var rdd2=sc.parallelize(List((,"30k"),(,"28k"),(,"5k"),(,"10k")))      //创建rddd2
rdd2: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[] at parallelize at <console>:
scala> var joinRes=rdd1 join rdd2                               //join rdd
joinRes: org.apache.spark.rdd.RDD[(Int, (String, String))] = MapPartitionsRDD[] at join at <console>:
scala> joinRes.collect   //查看join后的结果,可以看出join会把两个rdd有相同key的元素的值进行合并
res20: Array[(Int, (String, String))] = Array((,(spark,30k)), (,(scala,5k)), (,(hadoop,28k)))
 
因为第4和第5没有匹配项,所以不显示
 
leftOuterJoin(左外链接)
//这个是以左边的rdd为主,右边为辅。右边与左边没有匹配项,则会显示左边的值,所以这里key为4的也会显示
scala> var leftJoinRes=rdd1.leftOuterJoin(rdd2)
leftJoinRes: org.apache.spark.rdd.RDD[(Int, (String, Option[String]))] = MapPartitionsRDD[] at leftOuterJoin at <console>:
scala> leftJoinRes.collect
res21: Array[(Int, (String, Option[String]))] = Array((,(java,None)), (,(spark,Some(30k))), (,(scala,Some(5k))), (,(hadoop,Some(28k))))
rightOuterJoin(右外链接)
//这个是以右边边的rdd为主,左边边为辅。右边与左边没有匹配项,则只显示右边,所以这里key为5的也会显示
scala> var rightJoinRes=rdd1.rightOuterJoin(rdd2)
rightJoinRes: org.apache.spark.rdd.RDD[(Int, (Option[String], String))] = MapPartitionsRDD[] at rightOuterJoin at <console>:
scala> rightJoinRes.collect
res22: Array[(Int, (Option[String], String))] = Array((,(Some(spark),30k)), (,(Some(scala),5k)), (,(None,10k)), (,(Some(hadoop),28k)))
 
groupByKey
//(4,1), (7,4), (6,3), (2,2), (3,3), (1,3)
scala> f1.flatMap(x=>x.split("-")).map((_,)).groupByKey.collect
res28: Array[(String, Iterable[Int])] = Array((,CompactBuffer()), (,CompactBuffer(, , , )), (,CompactBuffer(, , )), (,CompactBuffer(, )), (,CompactBuffer(, , )), (,CompactBuffer(, , )))
 
reduce
scala> var rdd1=sc.parallelize(List(,,,,))
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[] at parallelize at <console>:
scala> rdd1.reduce(_+_)
res32: Int =
reduce(_+_):每个元组相加 1+2+3+4+5=15
他是每次相加两个元组然后产生新的rdd与下一位元组相加
1+2=3
3+3=6
6+4=10
10+5=15
 
lookup 
scala> var rdd1=sc.parallelize(List((,"a"),(,"b"),(,"c")))
rdd1: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[] at parallelize at <console>:
scala> rdd1.lookup()
res34: Seq[String] = WrappedArray(a)
lookup函数对<key,value>型的rdd操作,返回指定key对应的元素形成的seq,这个函数的优点
如果这个rdd包含分区器,那么只扫描对应key所在的分区,然后返回对应key的元素形成的seq;如果这个rdd没有分区器,则对这个rdd进行全盘扫描,然后返回对应key的元素形成的seq
 
map和flatMap
map函数是以一行数据为一个元素
Array[Student] =
Array(Student(zhangxs,,chenxy), Student(wangYr,,teacher), Student(wangx,,teacher))
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
scala> val a = sc.parallelize( to , )
scala> val b = a.map(x => x*)
scala> a.collect
res10: Array[Int] = Array(, , , , , , , , )
scala> b.collect
res11: Array[Int] = Array(, , , , , , , , )

上述例子中把原RDD中每个元素都乘以2来产生一个新的RDD。

 
 
flatMap是一个文件的数据为一个元素
res9: Array[String] = Array(zhangxs, , chenxy, wangYr, , teacher, wangx, , teacher)

mapPartitions

mapPartitions是map的一个变种。map的输入函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区,也就是把每个分区中的内容作为整体来处理的。 
它的函数定义为:


  1. def mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]

f即为输入函数,它处理每个分区里面的内容。每个分区中的内容将以Iterator[T]传递给输入函数f,f的输出结果是Iterator[U]。最终的RDD由所有分区经过输入函数处理后的结果合并起来的。

比如

scala> val a = sc.parallelize( to , )
scala> def myfunc[T](iter: Iterator[T]) : Iterator[(T, T)] = {
var res = List[(T, T)]()
var pre = iter.next while (iter.hasNext) {
val cur = iter.next;
res .::= (pre, cur) pre = cur;
}
res.iterator
}
scala> a.mapPartitions(myfunc).collect
res0: Array[(Int, Int)] = Array((,), (,), (,), (,), (,), (,))

上述例子中的函数myfunc是把分区中一个元素和它的下一个元素组成一个Tuple。因为分区中最后一个元素没有下一个元素了,所以(3,4)和(6,7)不在结果中。 
mapPartitions还有些变种,比如mapPartitionsWithContext,它能把处理过程中的一些状态信息传递给用户指定的输入函数。还有mapPartitionsWithIndex,它能把分区的index传递给用户指定的输入函数。

 

mapValues

mapValues顾名思义就是输入函数应用于RDD中Kev-Value的Value,原RDD中的Key保持不变,与新的Value一起组成新的RDD中的元素。因此,该函数只适用于元素为KV对的RDD。

scala> val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), )
scala> val b = a.map(x => (x.length, x))  //key:元组的长度 value:元组的值
scala> b.mapValues("x" + _ + "x").collect //“_”就是每个元组的value,在每个value的前后加"x"
res5: Array[(Int, String)] = Array((,xdogx), (,xtigerx), (,xlionx),(,xcatx), (,xpantherx), (,xeaglex))

mapWith

mapWith是map的另外一个变种,map只需要一个输入函数,而mapWith有两个输入函数。它的定义如下:

def mapWith[A: ClassTag, U: ](constructA: Int => A, preservesPartitioning: Boolean = false)(f: (T, A) => U): RDD[U]
  • 第一个函数constructA是把RDD的partition index(index从0开始)作为输入,输出为新类型A;
  • 第二个函数f是把二元组(T, A)作为输入(其中T为原RDD中的元素,A为第一个函数的输出),输出类型为U。

比如把partition index 乘以10,然后加上2作为新的RDD的元素。

val x = sc.parallelize(List(,,,,,,,,,), )
x.mapWith(a => a * )((a, b) => (b + )).collect
res4: Array[Int] = Array(, , , , , , , , , )

spark 的一些常用函数 filter,map,flatMap,lookup ,reduce,groupByKey的更多相关文章

  1. 常用函数-filter、map、reduce、sorted

    常用函数 filter map reduce sorted和列表自带sort 待续... 一.filter函数 1.说明 filter()函数接收一个函数 f 和一个可迭代对象,这个函数 f 的作用是 ...

  2. 高阶函数 filter map reduce

    const app=new Vue({ el:'#app', data:{ books:[{ id:1, name:"算法导论", data: '2006-1', price:39 ...

  3. Python 内置函数&filter()&map()&reduce()&sorted()

    常用内置函数 Python 2.x 返回列表,Python 3.x 返回迭代器 在进行筛选或映射时,输出的结果是一个数组,需要list帮助. 如:print(list(map(lambda x:x+1 ...

  4. Python内置函数filter, map, reduce

    filter.map.reduce,都是对一个集合进行处理,filter很容易理解用于过滤,map用于映射,reduce用于归并. 是Python列表方法的三架马车. 1. filter函数的功能相当 ...

  5. python关于list的三个内置函数filter(), map(), reduce()

    ''' Python --version :Python 2.7.11 Quote : https://docs.python.org/2/tutorial/datastructures.html#m ...

  6. Spark工程开发常用函数与方法(Scala语言)

    import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.sql.{SaveMode, DataFrame}im ...

  7. js高阶函数filter、map、reduce

    // 高阶函数 filter/map/reduce // filter中的回调函数有一个要求:必须返回一个boolean值, // 当返回true时,函数内部会自动将这次回调的 n 加入到新的数组中 ...

  8. (八)map,filter,flatMap算子-Java&Python版Spark

    map,filter,flatMap算子 视频教程: 1.优酷 2.YouTube 1.map map是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从而生成一个新的J ...

  9. 函数进阶· 第3篇《常用内置函数filter()、map()、zip(),怎么用的呢?》

    坚持原创输出,点击蓝字关注我吧 作者:清菡 博客:oschina.云+社区.知乎等各大平台都有. 由于微信公众号推送改为了信息流的形式,防止走丢,请给加个星标 ,你就可以第一时间接收到本公众号的推送! ...

随机推荐

  1. (2)OLEDB数据库操作

    1.首先要引入 System.Data.OracleClient.dll 2.引入命名空间 using System.Data.OleDb; OleDb类  https://msdn.microsof ...

  2. NOI2016 高中OI生涯的最后一站

    你乘坐的航班XXX已经抵达终点站——四川绵阳. “呼——”机舱外的天空灰沉沉的,不禁有些压抑与紧张. 一出机场,就看见南山中学的牌子,黄色衣服的志愿者们,还有热情的老师们. 感觉刚才的情绪又一扫而空了 ...

  3. 分布式协调服务Zookeeper

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件.它是一个为分布式应用提供一致性服务的软件,提供的功 ...

  4. How to create an IPA (Xcode 5)

    This tutorial will walk you through the easiest way to generate an IPA using Xcode 5. We will be usi ...

  5. 【Hive】Hive 基础

    Hive架构: Hive基础 1 概念 1.1 简介 1.1.1 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,可以将sql语句 ...

  6. python实现将文件夹内所有txt文件合并成一个文件

    新建一个文件夹命名为yuliao,把所有txt文件放进去就ok啦!注意路径中‘/’,windows下路径不是这样. #coding=utf-8  import os #获取目标文件夹的路径 filed ...

  7. CodeForces 388A Fox and Box Accumulation (模拟)

    A. Fox and Box Accumulation time limit per test:1 second memory limit per test:256 megabytes Fox Cie ...

  8. 倍福TwinCAT(贝福Beckhoff)基础教程 松下驱动器试运行提示过速度保护怎么办

    在试运行的时候,取消勾选自动设定,然后可以自己设置过速度等级设置和过载等级设置     更多教学视频和资料下载,欢迎关注以下信息: 我的优酷空间: http://i.youku.com/acetaoh ...

  9. Java 调用存储过程、函数

     一.Java调用存储Oracle存储过程 测试用表: --创建用户表 create table USERINFO ( username ) not null, password ) not null ...

  10. laravel性能优化技巧(转)

    说明 性能一直是 Laravel 框架为人诟病的一个点,所以调优 Laravel 程序算是一个必学的技能. 接下来分享一些开发的最佳实践,还有调优技巧,大家有别的建议也欢迎留言讨论. 这里是简单的列表 ...