初见spark-03(高级算子)

最近心情不是很好，但是需要调节自己，真的需要调节自己，还是要努力，这个世界有我喜欢的人，有我追求的人,也许真的是守的住寂寞，耐得住繁华吧。

不说别的了，今天我们来接受啊spark的高级算子的系列

　　1.map是对每个元素操作, mapPartitions是对其中的每个partition操作

　　2.mapPartitionsWithIndex：把每个partition中的分区号和对应的值拿出来, 看源码

　　　　val func = (index: Int, iter: Iterator[(Int)]) => {

　　　　　　iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator　　
　　　　}
　　　　val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)
　　　　rdd1.mapPartitionsWithIndex(func).collect

　　3.aggregate(聚合)

　　　　def func1(index: Int, iter: Iterator[(Int)]) : Iterator[String] = {

　　　　　　iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator
　　　　}
　　　　val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)
　　　　rdd1.mapPartitionsWithIndex(func1).collect
　　　　###是action操作,

　　　　第一个参数是初始值,

　　　　二:是2个函数[每个函数都是2个参数(第一个参数:先对个个分区进行合并, 第二个:对个个分区合并后的结果再进行合并), 输出一个参数]
　　　　###0 + (0+1+2+3+4 + 0+5+6+7+8+9)
　　　　rdd1.aggregate(0)(_+_, _+_)
　　　　rdd1.aggregate(0)(math.max(_, _), _ + _)
　　　　###5和1比, 得5再和234比得5 --> 5和6789比,得9 --> 5 + (5+9)
　　　　rdd1.aggregate(5)(math.max(_, _), _ + _)
　　　　这个是5是初始值，每一个分区和5进行比较，选最大的，最后每一个分区相加的时候，在把5加上即可

　　　　或者我们可以这样操作

　　　　val arr=Array(1,2,3)
　　　　arr.reduce(math.max(_,_))其中这个样子也是可以比大小的
　　　　arr.reduce：这个的方法就是取出两个数据

　　　　scala> val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)
　　　　rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[3] at parallelize at <console>:27

　　　　scala> rdd2.aggregate("")(_+_,_+_)
　　　　res23: String = abcdef

　　　　scala> rdd2.aggregate("|")(_+_,_+_)
　　　　res24: String = ||abc|def

　　　　val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)　　
　　　　def func2(index: Int, iter: Iterator[(String)]) : Iterator[String] = {
　　　　　　iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator
　　　　}
　　　　rdd2.aggregate("")(_ + _, _ + _)
　　　　rdd2.aggregate("=")(_ + _, _ + _)

　　　　val rdd3 = sc.parallelize(List("12","23","345","4567"),2)
　　　　rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

　　　　val rdd4 = sc.parallelize(List("12","23","345",""),2)
　　　　rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)
　　　　结果为:01或者是10(比完之后，可以跟后一项的进行比较)，所以才会出现1这个值

　　　　val arr = Array("","12","23")
　　　　arr.reduce((x:String,y:String) => math.main(x.length,y.length).toString)
　　　　结果为:1

　　　　val rdd5 = sc.parallelize(List("12","23","","345"),2)
　　　　rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)
　　　　结果是:11,造成这个结果的是初始化的“”以及列表里面的“”的这两个一，构成的11

　　4.aggregateByKey(这个现在局部的进行操作，然后可以全局的进行操作)

　　　　val pairRDD = sc.parallelize(List( ("cat",2), ("cat", 5), ("mouse", 4),("cat", 12), ("dog", 12), ("mouse", 2)), 2)

　　　　def func2(index: Int, iter: Iterator[(String, Int)]) : Iterator[String] = {
　　　　　　iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator
　　　　}
　　　　pairRDD.mapPartitionsWithIndex(func2).collect //可以查看分区的情况

　　　　//可以把每一项数据头添加起来
　　　　pairRDD.aggregateByKey(0)(_+_,_+_).collect
　　　　pariRDD.reduceByKey(_+_).collect
　　　　上述的两个方法的实现都是一样的，底层调用相同的函数

　　　　pairRDD.aggregateByKey(0)(math.max(_, _), _ + _).collect
　　　　pairRDD.aggregateByKey(100)(math.max(_, _), _ + _).collect

初见spark-03(高级算子)的更多相关文章

初见spark-04(高级算子)
今天,这个是spark的高级算子的讲解的最后一个章节,今天我们来介绍几个简单的算子, countByKey val rdd1 = sc.parallelize(List(("a", ...
Spark Streaming高级特性在NDCG计算实践
从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方 ...
【Spark篇】---Spark中控制算子
一.前述 Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存. 控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化 ...
spark 高级算子
mapPartitionsWithIndex val func = (index: Int, iter: Iterator[(Int)]) => { iter.toList.map(x ...
【Spark篇】---Spark中transformations算子二
一.前述今天继续整理几个Transformation算子如下: mapPartitionWithIndex repartition coalesce groupByKey zip zipWithIn ...
【Spark篇】---Spark中Action算子
一.前述 Action类算子也是一类算子(函数)叫做行动算子,如foreach,collect,count等.Transformations类算子是延迟执行,Action类算子是触发执行.一个appl ...
spark总结4 算子问题总结
官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后会产生一个rdd spark 的算子分为两类一类 Transformation 转换一类 Action 动作 ...
spark调优——算子调优
算子调优一:mapPartitions 普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作.如果是普通的map算子,假设一个partition ...
【spark core学习---算子总结(java版本) (第1部分)】
map算子 flatMap算子 mapParitions算子 filter算子 mapParttionsWithIndex算子 sample算子 distinct算子 groupByKey算子 red ...

随机推荐

CSS如何居中元素
How to center in CSS 一步步拆解你的需求,是水平居中还是垂直居中?还是水平垂直居中?父容器是inline还是block,高度知不知,宽度造不造?一个子元素还是多个子元素?一行还是多 ...
Android监听安装卸载
需要通过receiver来监听: 在AndroidManifest.xml文件中注册的receiver中必须加上<data android:scheme="package"/ ...
【Unity3D学习笔记】解决放大后场景消失不显示问题
不知道为啥,我的Unity场景放大到一定大小后,就会消失... 解决方案: 选中一个GameObject,然后按F键. F键作用是聚焦,视图将移动,以选中对象为中心.
关于 supersocket 不能通过Bootstrap 启动
App.config内容 <configSections> <section name="superSocket" type="SuperSocke ...
TeamViewer 软件完全卸载
TeamViewer 软件似乎用于商业环境中 - 彻底卸载 Windows 1. 检测为商业用途该软件似乎用于商业环境中.请注意:免费版仅供个人使用.您的会话将在 5 分钟后终止. 2.1 Close ...
Lucene——索引过程分析Index
Lucene索引过程分为3个主要操作步骤:将原始文档转换成文本.分析文本.将分析好的文本保存至索引中一.提取文本和创建文档从 pdf.word等非纯文本格式文件中,提取文本格式信息.建立起对应的, ...
SINAMICS S120 Parking axis设置，安转拆除或屏蔽电机
1) P897 Parking axis selection 此参数可以连接到周期通讯的报文中(PZD) 2) 标准报文111中,已经连接此参数
金庸的武侠世界和SAP的江湖
2018年10月30日晚,成都地铁一号线,Jerry手机app上突然弹出来一条金庸去世的新闻. Jerry识字很早,小学一年级就开始蹭我父亲的<射雕英雄传>看了.小时候,我爸工作的车间里有 ...
解决cdh4.5.0下 MAP任务看不到状态
参考 http://qnalist.com/questions/772595/yarn-jobhistory-service 在mapreduce-site.xml中添加 <property&g ...
10-UIScrollView
UIScrollView 掌握 UIScrollView的常见属性 UIScrollView的常用代理方法 UIScrollView的缩放 UIScrollView和UIPageControl的分页 ...

初见spark-03(高级算子)

初见spark-03(高级算子)的更多相关文章

随机推荐

热门专题