Spark（二）算子讲解

Spark（二）算子讲解

一、wordcountcount

基于上次的wordcount，我们来写一个wordcountcount，来对wc程序进行第二次计数，我们来分析一下性能。

package com.littlepage.wc

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("wc").setMaster("local")

    val sparkContext=new SparkContext(conf)

    sparkContext.setLogLevel("error")

    val fileRDD:RDD[String] = sparkContext.textFile("data/data")

    val words:RDD[String] = fileRDD.flatMap(_.split(" "))

    val pairWord:RDD[(String,Int)] = words.map((_,1))

    val res:RDD[(String,Int)] = pairWord.reduceByKey(_+_)

    println("wordcount:")

    res.foreach(println)

    val rev:RDD[(Int,Int)] = res.map((x)=>{(x._2,1)})

    val pl:RDD[(Int,Int)] = rev.reduceByKey(_+_)

    println("\nwordcountcount")

    pl.foreach(println)

    Thread.sleep(100000000)

  }

}

通过性能图，我们可以知道：

1.Spark如果不对其结果进行存储或输出，那么Spark将不会处理map或者reduce操作

2.如果进行重复输出，共用的map或者reduce操作只执行一次

3.默认如果产生一次shuffle是去查看图表的一次拐弯，为了尽量减少性能的消耗，编写程序时应该尽量减少shuffle的次数

二、编程模型

Spark编程模型和MapReduce相比，Spark可以多个Job，多个State进行执行。

源码部分参考视频

三、RDD数据集和算子的使用

1.三个必备算子

我们在写一个Spark程序中，不可避免的算子有三个，创建算子，转换算子，收集算子。

创建算子可以创建一个RDD数据集，这个创建可以在内存中（集合容器），也可以在硬盘中（文件）获取

转换算子可以处理一个RDD数据集，即map和reduce操作，都算做转换算子。

收集算子我们在写一个RDD数据集的时候，必须使用收集算子进行收集，否则不会触发shuffle。

示例，三个算子写一个过滤数字程序。

package com.littlepage

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object demo2 {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("demo2").setMaster("local")

    val sc=new SparkContext(conf)

    sc.setLogLevel("error")

    val dataRDD: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,6,5,4,3,2,1))//创建算子

    val filterRDD: RDD[Int] = dataRDD.filter(_>3)//转换算子

    val ints:Array[Int] = filterRDD.collect()//收集算子

    Thread.sleep(100000)

  }

}

package com.littlepage

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object demo2 {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("demo2").setMaster("local")

    val sc=new SparkContext(conf)

    sc.setLogLevel("error")

    val dataRDD: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,6,5,4,3,2,1))//创建算子

    val filterRDD: RDD[Int] = dataRDD.filter(_>3)//转换算子

    val ints:Array[Int] = filterRDD.collect()//收集算子

    Thread.sleep(100000)

  }

}

2.常见算子（交并差笛卡尔，cogroup，join）

2.1.union算子

将两个数据集合并为一个数据集，直接合并，不会产生shuffle

object union {

  def main(args: Array[String]): Unit = {

    val sc=new SparkContext(new SparkConf().setMaster("local").setAppName("union"))

    sc.setLogLevel("error")

    val rdd1:RDD[Int] = sc.parallelize(List(1,2,3,4,6,7))

    val rdd2:RDD[Int] = sc.parallelize(List(2,3,4,5))

    val uniondata = rdd1.union(rdd2)

    uniondata.foreach(print)

    Thread.sleep(100000)

  }

}

2.2.intersection算子

将2个数据集取交集，产生一个shuffle

val interdata:RDD[Int] = rdd1.intersection(rdd2)

2.3.substract算子

将2个数据集取差集，产生一个shuffle

val subdata:RDD[Int] = rdd1.substract(rdd2)

2.4.cartesian算子

将2个数据集取笛卡尔积，不产生shuffle

val cartesiandata:RDD[Int] = rdd1.cartesian(rdd2)

2.5.cogroup算子

两个分组进行，key作为结果的key，value集合进行一个二元祖，包含两个分区的元素，产生一个shuffle。

val rdd1:RDD[(String,Int)] = sc.parallelize(List(

      ("zhangsan",11),

      ("zhangsan",12),

      ("lisi",13),

      ("wangwu",14)

    ));

    val rdd2:RDD[(String,Int)] = sc.parallelize(List(

      ("zhangsan",21),

      ("zhangsan",22),

      ("lisi",23),

      ("zhaoliu",28)

    ))

    val cogroupdata:RDD[(String,(Iterable[Int],Iterable[Int]))] = rdd1.cogroup(rdd2)

6.join,leftOuterJoin,rightOuterJoin,fullOuterJoin算子

val joindata:RDD[(String,(Int,Int))] = rdd1.join(rdd2)

val leftdata:RDD[(String,(Int,Option[Int]))] = rdd1.leftOuterJoin(rdd2)

val rightdata:RDD[(String,(Option[Int],Int))]  = rdd2.rightOuterJoin(rdd2)

val fulldata:RDD[(String,(Option[Int],Option[Int]))]  = rdd1.fullOuterJoin(rdd2)

3.排序和聚合计算

3.1.swap算子

将一个k-v数据集的key和value交换，用法

data.map(_.swap)

3.2.sort算子

sort算子可以将按照key进行全排序

data.sortByKey()

3.3.take算子

获得数据的前n个，n为一个整型

data.take(n)

3.4.distinct去重

去除key相同的

val keys:RDD[(String,String) = map.distinct()

Spark（二）算子详解的更多相关文章

Spark：常用transformation及action，spark算子详解
常用transformation及action介绍,spark算子详解一.常用transformation介绍 1.1 transformation操作实例二.常用action介绍 2.1 act ...
ViewPager 详解（二）---详解四大函数
前言:上篇中我们讲解了如何快速实现了一个滑动页面,但问题在于,PageAdapter必须要重写的四个函数,它们都各有什么意义,在上节的函数内部为什么要这么实现,下面我们就结合Android的API说明 ...
iOS 开发之照片框架详解之二 —— PhotoKit 详解（下）
本文链接:http://kayosite.com/ios-development-and-detail-of-photo-framework-part-three.html 这里接着前文<iOS ...
iOS 开发之照片框架详解之二 —— PhotoKit 详解（上）
转载自:http://kayosite.com/ios-development-and-detail-of-photo-framework-part-two.html 一. 概况本文接着 iOS 开 ...
详解C#泛型（二）获取C#中方法的执行时间及其代码注入详解C#泛型（一）详解C#委托和事件（二）详解C#特性和反射（四）记一次.net core调用SOAP接口遇到的问题 C# WebRequest.Create 锚点“#”字符问题根据内容来产生一个二维码
详解C#泛型(二) 一.自定义泛型方法(Generic Method),将类型参数用作参数列表或返回值的类型: void MyFunc<T>() //声明具有一个类型参数的泛型方法 { ...
Hexo系列(二) 配置文件详解
Hexo 是一款优秀的博客框架,在使用 Hexo 搭建一个属于自己的博客网站后,我们还需要对其进行配置,使得 Hexo 更能满足自己的需求这里所说的配置文件,是位于站点根目录下的 _config.y ...
【模型推理】量化实现分享二：详解 KL 对称量化算法实现
欢迎关注我的公众号 [极智视界],回复001获取Google编程规范 O_o >_< o_O O_o ~_~ o_O 大家好,我是极智视界,本文剖析一下 K ...
Struts2学习笔记二配置详解
Struts2执行流程 1.简单执行流程,如下所示: 在浏览器输入请求地址,首先会被过滤器处理,然后查找主配置文件,然后根据地址栏中输入的/hello去每个package中查找为/hello的name ...
Apache Spark 内存管理详解（转载）
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文旨在梳理出 ...
EventBus (二) 使用详解——EventBus使用进阶
相关文章: 1.<EventBus使用详解(一)——初步使用EventBus> 2.<EventBus使用详解(二)——EventBus使用进阶> 一.概述前一篇给大家装简单 ...

随机推荐

网页引用jQuery在Electron运行出现"$ is not defined"
Electron因为开启了node集成才能实现和网页的通信,引入jQuery较高版本它的模块化定义(基于CommonJS)和Electron的内部机制冲突了.目前提供以下两个方案: 1.使用jQuer ...
共享文件word / excel /ppt 被用戶自己锁定无法编辑-解決方法
共享文件word / excel /ppt 被用戶自己鎖定無法編輯,但用戶嘗試過關閉所有文件和重啓過系統,依然無法編輯. 搜到解決方法: Just in case someone looking fo ...
静态链表过程演示及代码实现(A - B) U (B - A)
静态链表说明使用数组来实现链式存储结构,目的是方便在不设指针类型的高级程序设计语言中使用链式结构 c语言定义数据结构 #define MAX_SIZE 1000 // 所有的类型都统一定义为Elem ...
【VS开发】Windows平台下Makefile学习笔记
作者:朱金灿来源:http://blog.csdn.net/clever101 决心学习Makefile,一方面是为了解决编译开源代码时需要跨编译平台的问题(发现一些开源代码已经在使用VS2010开 ...
【数据库开发】MySQL修改root密码
方法1: 用SET PASSWORD命令 mysql -u root mysql> SET PASSWORD FOR 'root'@'localhost' = PASSWORD('newpass ...
linux系统中RAID5磁盘冗余阵列配置（5块磁盘）
RAID5:需要至少三块(含)硬盘,兼顾存储性能.数据安全和储存成本. 如图所示”parity”块中保存的是其他硬盘数据的奇偶校验信息(并非其他硬盘的数据),以数据的奇偶校验信息来保证数据的安全,RA ...
java根据模板生成pdf
原文链接:https://www.cnblogs.com/wangpeng00700/p/8418594.html 在网上看了一些Java生成pdf文件的,写的有点乱,有的不支持写入中文字体,有的不支 ...
Java面试 - static 修饰的变量和方法有哪些特点？
1.static修饰的变量和方法,在类加载时即被初始化,可直接通过类名.变量名和类型.方法名进行调用. 2.static修饰的变量,在类加载时会被分配到数据区的方法区.类的实例可共享方法区中的变量.如 ...
【转帖】史上最全PostgreSQL体系结构
史上最全PostgreSQL体系结构 2019年07月16日 18:00:00 Enmotech 阅读数 35 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出 ...
认识 Spring 框架（一）
认识 Spring 框架 Spring 框架是 Java 应用最广的框架,它的成功来源于理念,而不是技术本身,它的理念包括 IoC (Inversion of Control,控制反转) 和 AOP( ...

Spark（二）算子详解