Transformation算子

intersection

交集

/*

  交集

   */

  @Test

  def intersection(): Unit ={

    val rdd1=sc.parallelize(Seq(1,2,3,4,5))

    val rdd2=sc.parallelize(Seq(3,4,5,6,7))

    rdd1.intersection(rdd2)

      .collect()

      .foreach(println(_))

  }

union

并集

/*

  并集

   */

  @Test

  def union(): Unit ={

    val rdd1=sc.parallelize(Seq(1,2,3,4,5))

    val rdd2=sc.parallelize(Seq(3,4,5,6,7))

    rdd1.union(rdd2)

      .collect()

      .foreach(println(_))

  }

subtract

差集

@Test

  def subtract(): Unit ={

    val rdd1=sc.parallelize(Seq(1,2,3,4,5))

    val rdd2=sc.parallelize(Seq(3,4,5,6,7))

    rdd1.subtract(rdd2)

      .collect()

      .foreach(println(_))

  }

输出：

groupByKey

作用

GroupByKey 算子的主要作用是按照 Key 分组, 和 ReduceByKey 有点类似, 但是 GroupByKey 并不求聚合, 只是列举 Key 对应的所有 Value

/*

  groupByKey  运算结果的格式：（K,(value1,value2)）

  reduceByKey 能否在Map端做Combiner

   */

  @Test

  def groupByKey(): Unit ={

    sc.parallelize(Seq(("a",1),("a",1),("b",1)))

      .groupByKey()

      .collect()

      .foreach(println(_))

  }

distinct

作用：用于去重

@Test

  def distinct(): Unit ={

    sc.parallelize(Seq(1,1,2,2,3))

      .distinct()

      .collect()

      .foreach(println(_))

  }

输出：1，2，3

combineByKey

作用

对数据集按照 Key 进行聚合

调用

combineByKey(createCombiner, mergeValue, mergeCombiners, [partitioner], [mapSideCombiner], [serializer])

参数

createCombiner 将 Value 进行初步转换
mergeValue 在每个分区把上一步转换的结果聚合
mergeCombiners 在所有分区上把每个分区的聚合结果聚合
partitioner 可选, 分区函数
mapSideCombiner 可选, 是否在 Map 端 Combine
serializer 序列化器

例子：算个人得分的平均值

@Test

  def combineByKey(): Unit ={

    var rdd=sc.parallelize(Seq(

      ("zhangsan", 99.0),

      ("zhangsan", 96.0),

      ("lisi", 97.0),

      ("lisi", 98.0),

      ("zhangsan", 97.0)

    ))

    //2.算子运算

    //  2.1 createCombiner 转换数据

    //  2.2 mergeValue 分区上的聚合

    //  2.3 mergeCombiners 把所有分区上的结果再次聚合，生成最终结果

    val combineResult = rdd.combineByKey(

      createCombiner = (curr: Double) => (curr, 1),

      mergeValue = (curr: (Double, Int), nextValue: Double) => (curr._1 + nextValue, curr._2 + 1),

      mergeCombiners = (curr: (Double, Int), agg: (Double, Int)) => (curr._1 + agg._1, curr._2 + agg._2)

    )

    val resultRDD = combineResult.map(item => (item._1, item._2._1 / item._2._2))

    resultRDD.collect().foreach(print(_))

  }

aggregateByKey

作用

聚合所有 Key 相同的 Value, 换句话说, 按照 Key 聚合 Value

调用

rdd.aggregateByKey(zeroValue)(seqOp, combOp)

参数

zeroValue 初始值
seqOp 转换每一个值的函数
comboOp 将转换过的值聚合的函数

/*

  rdd.aggregateByKey(zeroValue)(seqOp, combOp)

    zeroValue 初始值

    seqOp 转换每一个值的函数

    comboOp 将转换过的值聚合的函数

   */

  @Test

  def aggregateByKey(): Unit ={

    val rdd=sc.parallelize(Seq(("手机",10.0),("手机",15.0),("电脑",20.0)))

    rdd.aggregateByKey(0.8)(( zeroValue,item) =>item * zeroValue,(curr,agg) => curr+agg)

      .collect()

      .foreach(println(_))

//    (手机,20.0)

//    (电脑,16.0)

  }

foldByKey

作用

和 ReduceByKey 是一样的, 都是按照 Key 做分组去求聚合, 但是 FoldByKey 的不同点在于可以指定初始值

/*

  foldByKey可以指定初始值

   */

  @Test

  def foldByKey(): Unit ={

    sc.parallelize(Seq(("a",1),("a",1),("b",1)))

      .foldByKey(zeroValue = 10)( (curr,agg) => curr + agg )

      .collect()

      .foreach(println(_))

  }

join

作用

将两个 RDD 按照相同的 Key 进行连接

@Test

  def join(): Unit ={

    val rdd1 = sc.parallelize(Seq(("a", 1), ("a", 2), ("b", 1)))

    val rdd2 = sc.parallelize(Seq(("a", 10), ("a", 11), ("a", 12)))

    rdd1.join(rdd2).collect().foreach(println(_))

//    (a,(1,10))

//    (a,(1,11))

//    (a,(1,12))

//    (a,(2,10))

//    (a,(2,11))

//    (a,(2,12))

  }

sortBy

sortBy`可以指定按照哪个字段来排序, `sortByKey`直接按照 Key 来排序

@Test

  def sortBy(): Unit ={

    val rdd=sc.parallelize(Seq(8,4,5,6,2,1,1,9))

    val rdd2=sc.parallelize(Seq(("a",1),("b",3),("c",2)))

    //rdd.sortBy(item =>item).collect().foreach(println(_))

    rdd2.sortBy(item => item._2).collect().foreach(println(_))

    rdd2.sortByKey().collect().foreach(println(_))

  }

repartition

重新进行分区

@Test

  def partitioning(): Unit ={

    val rdd=sc.parallelize(Seq(1,2,3,4,5),2)

    //println((rdd.repartition(5)).partitions.size)

    println(rdd.coalesce(5,true).partitions.size)

  }

Spark学习进度-Transformation算子的更多相关文章

Spark学习笔记--Transformation 和 action
转自:http://my.oschina.net/hanzhankang/blog/200275 附:各种操作的逻辑执行图 https://github.com/JerryLead/SparkInte ...
Spark学习进度10-DS&DF基础操作
有类型操作 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset val ds1=Seq("hello spark"," ...
Spark学习进度11-Spark Streaming&Structured Streaming
Spark Streaming Spark Streaming 介绍批量计算流计算 Spark Streaming 入门 Netcat 的使用项目实例目标:使用 Spark Streaming ...
Spark学习进度-Spark环境搭建&Spark shell
Spark环境搭建下载包所需Spark包:我选择的是2.2.0的对应Hadoop2.7版本的,下载地址:https://archive.apache.org/dist/spark/spark-2. ...
Spark学习进度-RDD
RDD RDD 是什么定义 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数 ...
Spark学习进度-实战测试
spark-shell 交互式编程题目:该数据集包含了某大学计算机系的成绩,数据格式如下所示: Tom,DataBase,80 Tom,Algorithm,50 Tom,DataStructure ...
Spark学习之常用算子介绍
1. reduceByKey reduceByKey的作用对像是(key, value)形式的rdd,而reduce有减少.压缩之意,reduceByKey的作用就是对相同key的数据进行处理,最终每 ...
Spark学习进度7-综合案例
综合案例文件排序解法: 1.读取数据 2.数据清洗,变换数据格式 3.从新分区成一个分区 4.按照key排序,返还带有位次的元组 5.输出 @Test def filesort(): Unit = ...
Spark学习之路（四）—— RDD常用算子详解
一.Transformation spark常用的Transformation算子如下表: Transformation算子 Meaning(含义) map(func) 对原RDD中每个元素运用 fu ...

随机推荐

Python学习随笔：使用xlwings读取和操作Execl文件
一.背景有2种模块可以对Execl文件,一种是xlwt 方式,需要安装三个库文件 xlrd(读Excel)xlwt(写Excel)xlutils(修改Excel),也是网上介绍文章最多的一种方法,一 ...
分布式计算框架-Spark(spark环境搭建、生态环境、运行架构）
Spark涉及的几个概念:RDD:Resilient Distributed Dataset(弹性分布数据集).DAG:Direct Acyclic Graph(有向无环图).SparkContext ...
ORACLE PRAGMA AUTONOMOUS_TRANSACTION 自治事务单独提交某一段操作
个人使用示例: CREATE OR REPLACE PROCEDURE logs(p_remark VARCHAR2, p_log CLOB) AS PRAGMA AUTONOMOUS_TRANSAC ...
开源性能监控分析工具glowroot
最近在做java性能瓶颈定位分析工具的研究,发现glowroot工具是一款相当不错的APM工具(Wonderful tool),架构简洁,部署简单,上手容易. 经过亲身搭建体验,总结了产品的架构,工具 ...
Markdown常用数学符号&公式
符号代码描述 $\sim$ $\sim$ 波浪号 $\sum$ $\sum$ 求和公式 $\sum_{i=0}^n$ $\sum_{i=0}^n$ 求和上下标 $\times$ $ ...
【题解】HDU4625 JZPTREE
题目链接题意给定一棵 n 点的树,定义 $dis(u,v)$ 为树上路径长度.对于每个点,定义 $E_u=\sum_{v=1}^n dis(u,v)^k$ ,其中 k 为给定数. 求每个 ...
题解-CF1444C Team-Building
题面 CF1444C Team-Building 给 $n$ 个点 $m$ 条边,每个点有颜色 $c_i(1\le c_i\le k)$,求有多少个颜色对两组点并后是二分图. 数据范围:\ ...
AcWing 345. 牛站 Cow Relays
由于我太菜了,不会矩阵乘法,所以给同样不会矩阵乘法同学的福利首先发现这题点很多边很少,实际上有用的点 $<= 2 * T$(因为每条边会触及两个点嘛) 所以我们可以把点的范围缩到 \(2 ...
MySQL技术内幕InnoDB存储引擎（二）——InnoDB存储引擎
1.概述是一个高性能.高可用.高扩展的存储引擎. 2.InnoDB体系架构 InnoDB存储引擎主要由内存池和后台线程构成. 其中,内存池由许多个内存块组成,作用如下: 维护所有进程和线程需要访问的 ...
MySQL的验证方式
mysql8之后root用户的密码验证方式修改了,mysql8的加密方式为caching_sha2_passoword,而navicat连接所用的方式为native_password. 使用命令mys ...

Spark学习进度-Transformation算子

Transformation算子

intersection

union

subtract

groupByKey

作用

distinct

combineByKey

aggregateByKey

foldByKey

join

sortBy

repartition

Spark学习进度-Transformation算子的更多相关文章

随机推荐

热门专题