Spark基本函数学习

package cn.itcast.spark.czh

import org.apache.spark.{SparkConf, SparkContext}

object TestFun {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("map")
    val sc = new SparkContext(conf)
    //    val rdd = sc.parallelize(1 to 10)  //创建RDD
    //    val map = rdd.map(_*2)             //对RDD中的每个元素都乘于2
    //    map.foreach(x => print(x+" "))
    //    sc.stop()
    //    fun1()
    //    val l = List(("kpop", "female"), ("zorro", "male"), ("mobin", "male"), ("lucy", "female"))
    //    val rdd = sc.parallelize(l, 2)
    //    /*写法一*/
    //    //        val mp = rdd.mapPartitions(fun2)
    //    /*val mp = rdd.mapPartitionsWithIndex(partitionsFun)*/
    //    //    mp.collect.foreach(x => (print(x + " "))) //将分区中的元素转换成Aarray再输出
    //    /*写法二*/
    //    //    rdd.mapPartitions(x=>x.filter(_._2=="female")).map(_._1).foreach(x=>print(x+" "))
    //    /*写法三*/
    //    val mp = rdd.mapPartitionsWithIndex(fun3)
    //    mp.collect().foreach(x => (print(x + " ")))
    //    fun4(sc)
    fun9(sc)
  }

  /*map 数据集中的每个元素经过用户自定义的函数转换成一个新的RDD，新的RDD交MappedRDD*/
  def fun0(): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("map")
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(1 to 10) //创建RDD
    val map = rdd.map(_ * 2) //对RDD中的每个元素都乘于2
    map.foreach(x => print(x + " "))
    sc.stop()
  }

  /*flatMap 与map类似，但每个元素输入项都可以被映射到0或者多个输出项，最终将结果扁平化输出*/
  def fun1(): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("flatMap")
    val sc = new SparkContext(conf)
    val rdd = sc.parallelize(1 to 10)
    val array = rdd.flatMap(x => (1 to x)).collect()
    array.foreach(a => print(a))
  }

  /*mapPartitions 类似于map，map作用于每个分区的每个元素，单mapPartitions作用于每个分区工*/
  def fun2(iterable: Iterator[(String, String)]): Iterator[String] = {
    var woman = List[String]()
    while (iterable.hasNext) {
      val next = iterable.next()
      next match {
        case (_, "female") => woman = next._1 :: woman
        case _ =>
      }
    }
    return woman.iterator
  }

  /*mapPartitionsWithIndex*/
  def fun3(index: Int, iterator: Iterator[(String, String)]): Iterator[String] = {
    var woman = List[String]()
    while (iterator.hasNext) {
      val next = iterator.next()
      next match {
        case (_, "female") => woman = "[" + index + "]" + next._1 :: woman
        case _ =>
      }
    }
    return woman.iterator
  }

  /* sample 对RDD进行抽样
  * 参数解释：withReplacement 为true表示抽样之后还放回RDD，可以被多次抽样，false表示不放回。
  * fraction 表示抽样比例
  * seed为随机数种子，比如时间戳
  * */
  def fun4(sc: SparkContext): Unit = {
    val rdd = sc.parallelize(1 to 10)
    val sample1 = rdd.sample(true, 0.5)
    sample1.collect().foreach(x => print(x + " "))
    sc.stop()
  }

  /*union 将两个RDD中的数据进行合并，并最终返回两个RDD的并集，若RDD中存在相同的元素也不会去重*/
  def fun5(sc: SparkContext): Unit = {
    var rdd1 = sc.parallelize(1 to 10)
    var rdd2 = sc.parallelize(6 to 15)
    rdd1.union(rdd2).collect().foreach(x => print(x + " "))
  }

  /*intersection 返回两个RDD的交集*/
  def fun6(sc: SparkContext): Unit = {
    val rdd1 = sc.parallelize(1 to 10)
    val rdd2 = sc.parallelize(5 to 20)
    rdd1.intersection(rdd2).collect().foreach(x => print(x + " "))
  }

  /*distinct 对RDD中的元素进行去重*/
  def fun7(sc: SparkContext): Unit = {
    val rdd1 = sc.parallelize(List(1, 1, 2, 3, 4, 5, 5))
    rdd1.distinct().collect().foreach(x => print(x + " "))
  }

  /*cartesian 对两个RDD中所有的元素进行笛卡尔积操作*/
  def fun8(sc : SparkContext): Unit ={
    val rdd1 = sc.parallelize(1 to 3)
    val rdd2 = sc.parallelize(1 to 4)
    rdd1.cartesian(rdd2).collect().foreach(x=>print(x+" "))
  }

  /*coalesce(numPartitions,shuffle) 对RDD的分区进行重新分区，shuffle默认值为false，当shuffle=false时，不能增加分区数目，但不会报错，只是分区个数还是原来的*/
  def fun9(sc :SparkContext): Unit ={
    /*shuffle 为 false*/
    val rdd1 = sc.parallelize(1 to 16,4)
    val rdd2 = rdd1.coalesce(3)
    print(rdd2.partitions.size)

  }

}

Spark基本函数学习的更多相关文章

Spark 基本函数学习笔记一
Spark 基本函数学习笔记一¶ spark的函数主要分两类,Transformations和Actions. Transformations为一些数据转换类函数,actions为一些行动类函数: ...
Spark菜鸟学习营Day6 分布式代码运行调试
Spark菜鸟学习营Day6 分布式代码运行调试作为代码调试,一般会分成两个部分语法调试,也就是确定能够运行结果调试,也就是确定程序逻辑的正确其实这个都离不开运行,所以我们说一下如何让开发的S ...
Spark菜鸟学习营Day5 分布式程序开发
Spark菜鸟学习营Day5 分布式程序开发这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...
Spark菜鸟学习营Day4 单元测试程序的编写
Spark菜鸟学习营Day4 单元测试程序的编写 Spark相比于传统代码是比较难以调试的,单元测试的编写是非常必要的. Step0:需求分析在测试案例编写前,需完成需求分析工作,明确程序所有的输入 ...
Spark菜鸟学习营Day3 RDD编程进阶
Spark菜鸟学习营Day3 RDD编程进阶 RDD代码简化对于昨天练习的代码,我们可以从几个方面来简化: 使用fluent风格写法,可以减少对于中间变量的定义. 使用lambda表示式来替换对象写 ...
Spark菜鸟学习营Day2 分布式系统需求分析
Spark菜鸟学习营Day2 分布式系统需求分析本分析主要针对从原有代码向Spark的迁移.要注意的是Spark和传统开发有着截然不同的思考思路,所以我们需要首先对原有代码进行需求分析,形成改造思路 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
【Spark深入学习-11】Spark基本概念和运行模式
----本节内容------- 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 ...
【Spark 深入学习 01】 Spark是什么鬼？
经过一段时间的学习和测试,是时候给spark的学习经历做一个总结了,对于spark的了解相对晚了写.春节期间(预计是无大事),本博准备推出20篇左右spark系列原创文章(先把牛吹出去再说) ,尽量将 ...

随机推荐

[leetcode] 234. Palindrome Linked List (easy)
原题回文水题 function ListNode(val) { this.val = val; this.next = null; } /** * @param {ListNode} head * ...
kubernetes的volume的权限设置(属主和属组)
apiVersion: v1kind: Podmetadata: name: hello-worldspec: containers: # specification of the pod's c ...
【MySQL】（五）索引与算法
本篇文章的主旨是对InnoDB存储引擎支持的索引做一个概述,并对索引内部的机制做一个深入的解析,通过了解索引内部构造来了解哪里可以使用索引. 1.InnoDB存储引擎支持以下几种常见的索引: B+树索 ...
C++学习之路
一.二分查找 1.binary_search:查找某个元素是否出现. a.函数模板:binary_search(arr,arr+size ,indx) b.参数说明: arr: 数组首地址 size: ...
简述JavaScript模块化编程（二）
前置阅读:简述JavaScript模块化(一) 在前面一文中,我们对前端模块化所经历的三个阶段进行了了解: CommonJs,由于是同步的,所以主要应用于服务器端,以Node.js为代表. AMD,异 ...
tab选项卡代码
$('.case_header ul li').click(function(){ $(this).addClass('active').siblings().removeClass('active' ...
C#：正则表达式类
Regex r = new Regex("abc"); // 定义一个Regex对象实例(Regex r = new Regex("abc", RegexOp ...
Docker 的另外两个话题： DockerHub 和容器网络
关注公众号,大家可以在公众号后台回复“博客园”,免费获得作者 Java 知识体系/面试必看资料. Hello,大家好,我是子悠,作为本周的小编昨天已经跟大家介绍过自己了,今天就让我们继续学习江南一点雨 ...
【Java例题】1.4圆类
4.定义一个圆类,包括半径.构造方法.计算周长方法, 计算面积方法和显示半径方法. 然后编写一个主类,在其主方法中通过定义一个圆对象来显示圆的半径.周长和面积. package study; imp ...
java并发编程（五）----（JUC）ReentrantLock
上一节我们了解了Lock接口的一些简单的说明,知道Lock锁的常用形式,那么这节我们正式开始进入JUC锁(java.util.concurrent包下的锁,简称JUC锁).下面我们来看一下Lock最常 ...

Spark基本函数学习

Spark基本函数学习的更多相关文章

随机推荐

热门专题