Spark

一.coalesce

  1.简介

    coalesce常用来合并分区,第二个参数是合并分区时是否产生shuffle。true为产生shuffle,false为不产生shuffle。默认是false不产生shuffle。如果coalesce设置的分区数比原来的分区数还大的话若设置为false则不起作用。如果设置为true则效果等价于repartition。即repartition(numPartitions) = coalesce(numPartitions)。

  2.测试数据

    val array = Array("spark,scala,6", "hadoop,java,12", "tensorflow,python,8", "solr,java,16", "hbase,java,11")

  3.代码           

    /**
    * coalesce算子,常用于减少分区
     */
    val befParNum = rdd.getNumPartitions
    rdd = rdd.coalesce(1, false) // true为产生shuffle
    val coalParNum = rdd.getNumPartitions
    /**
     * repartition与之类型,一般增大分区数
     */
    rdd = rdd.repartition(3)
    val reParNum = rdd.getNumPartitions
    println("初始分区数:" + befParNum + ",coalesce分区后:" + coalParNum + ",repartition分区后:" + reParNum)

  4.结果

    初始分区数:2,coalesce分区后:1,repartition分区后:3

二.zip,zipWithIndex

  1.简介

    zip将两个RDD中的元素变成一个KV格式的RDD,两个RDD的每个分区元素个数必须相同。zipWithIndex该函数将RDD中的元素和这个元素在RDD中的索引下标【从0开始】组合成【K,V】键值对。

  2.测试数据

   val zip_array_left = Array(1,2,5,6,7,5,3,1)
   val zip_array_left_2 = Array(1,2,5,6,7,8,9,0)
   val zip_array_right = Array("spark", "scala", "hive", "hbase", "python", "hive", "hbase", "hbase")

  3.代码

   /**
   * zip
    */
   //to rdd
   val zip_left = sc.parallelize(zip_array_left)
   val zip_left_2 = sc.parallelize(zip_array_left_2)
   val zip_right = sc.parallelize(zip_array_right)    //zip
   val zip = zip_left.zip(zip_right)
   zip.foreach(println)
   println("------------------")    val zip_2 = zip_left_2.zip(zip_right)
   /**
    * zipWithIndex
  */
   val zip_index = zip.zipWithIndex()
   zip_index.foreach(println)

  4.结果

    (1,spark)
    (2,scala)
    (5,hive)
    (6,hbase)
    (7,python)
    (5,hive)
    (3,hbase)
    (1,hbase)
    ------------------
    ((1,spark),0)
    ((7,python),4)
    ((2,scala),1)
    ((5,hive),2)
    ((5,hive),5)
    ((6,hbase),3)
    ((3,hbase),6)
    ((1,hbase),7)

三.countByKey,countByValue

  1.简介

    countByKey作用在K,V格式的RDD之上,统计相同key的个数。countByValue作用在K,V格式的RDD之上,统计相同value的个数。

  2.测试数据

    同上

  3.代码

   /**
   * countByKey
   */
   val zip_key = zip.countByKey()
   zip_key.foreach(println)
   println("------------------")
   /**
   * countByValue
   */
   val zip_value = zip.countByValue()
   zip_value.foreach(println)

  4.结果 

    (5,2)
    (1,2)
    (6,1)
    (2,1)
    (7,1)
    (3,1)
    ------------------
    ((7,python),1)
    ((1,spark),1)
    ((2,scala),1)
    ((1,hbase),1)
    ((3,hbase),1)
    ((6,hbase),1)
    ((5,hive),2)

四.cogroup

  1.简介

    cogroup 对两个内部数据结构为元组(仅有两个元素的元组)的数据进行匹配,把匹配上的value值保存到一个元组中。

  2.测试数据

    同上

  3.代码  

   zip.cogroup(zip_2).foreach(println)

  4.结果

    (0,(CompactBuffer(),CompactBuffer(hbase)))
    (1,(CompactBuffer(spark, hbase),CompactBuffer(spark)))
    (7,(CompactBuffer(python),CompactBuffer(python)))
    (3,(CompactBuffer(hbase),CompactBuffer()))
    (6,(CompactBuffer(hbase),CompactBuffer(hbase)))
    (9,(CompactBuffer(),CompactBuffer(hbase)))
    (8,(CompactBuffer(),CompactBuffer(hive)))
    (5,(CompactBuffer(hive, hive),CompactBuffer(hive)))
    (2,(CompactBuffer(scala),CompactBuffer(scala))) 

五.flatten

  1.简介

    把多层集合数据展开成一个集合。

  2.测试数据

   val sourceDate = Array("zhen@zhen01/2018-09-04_18;57;02_SOURCE",
   "zhen@zhen02/2018-09-05_11;37;11_SOURCE","zhen@zhen03/2018-09-06_11;37;11_TEST")
   val resultDate = Array("zhen@zhen01/2018-09-04_18;57","zhen@zhen02/2018-09-05_11;37",
    "zhen@zhen03/2018-09-06_11;37")

  3.代码

   val seq = Seq(sourceDate, resultDate)
   seq.flatten.foreach(println)

  4.结果

    zhen@zhen01/2018-09-04_18;57;02_SOURCE
    zhen@zhen02/2018-09-05_11;37;11_SOURCE
    zhen@zhen03/2018-09-06_11;37;11_TEST
    zhen@zhen01/2018-09-04_18;57
    zhen@zhen02/2018-09-05_11;37
    zhen@zhen03/2018-09-06_11;37

Spark算子代码实践的更多相关文章

  1. UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现

      UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现   测试数据 java代码 package com.hzf.spark.study; import ...

  2. UserView--第一种方式set去重,基于Spark算子的java代码实现

    UserView--第一种方式set去重,基于Spark算子的java代码实现 测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...

  3. Spark—RDD编程常用转换算子代码实例

    Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U]  ...

  4. 【Spark算子】:reduceByKey、groupByKey和combineByKey

    在spark中,reduceByKey.groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom ...

  5. 我的Spark SQL单元测试实践

    最近加入一个Spark项目,作为临时的开发人员协助进行开发工作.该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性.在这种原 ...

  6. Spark算子---实战应用

    Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...

  7. ReactiveCocoa代码实践之-更多思考

    三.ReactiveCocoa代码实践之-更多思考 1. RACObserve()宏形参写法的区别 之前写代码考虑过 RACObserve(self.timeLabel , text) 和 RACOb ...

  8. ReactiveCocoa代码实践之-RAC网络请求重构

    前言 RAC相比以往的开发模式主要有以下优点:提供了统一的消息传递机制:提供了多种奇妙且高效的信号操作方法:配合MVVM设计模式和RAC宏绑定减少多端依赖. RAC的理论知识非常深厚,包含有FRP,高 ...

  9. (转)Spark 算子系列文章

    http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...

随机推荐

  1. mysql 开发进阶篇系列 50 表的数据导入(load data infile,mysqlimport )

    一.概述 上篇讲到的表的数据导出(select .. into outfile 或者mysqldump),这篇继续讲表的数据导入,导入也同样有二个方法,分别是load data infile... 和 ...

  2. Ioc及Bean容器(三)

    专题一 IoC 接口及面向接口编程 什么是 IoC Spring 的Bean配置 Bean 的初始化 Spring 的常用注入方式 接口 用于沟通的中介物的抽象化 实体把自己提供给外界的一种抽象化说明 ...

  3. <数据结构> 队列[转]

    队列(queue)是一个简单而常见的数据结构.队列也是有序的元素集合.队列最大的特征是First In, First Out (FIFO,先进先出),即先进入队列的元素,先被取出.这一点与栈(stac ...

  4. 【EF6学习笔记】(四)弹性连接及命令拦截调试

    本章原文地址:Connection Resiliency and Command Interception 原文有些地方讲的比较细,个人根据实际理解做些缩减,或者加入一些个人理解: 第1部分 弹性连接 ...

  5. python练习四—简单的聊天软件

    python最强大的是什么?库支持!!有了强大的库支持,一个简单的聊天软件实现就更简单了,本项目思路如下 # 项目思路 1. 服务器的工作 * 初始化服务器 * 新建一个聊天房间 * 维护一个已链接用 ...

  6. priority_queue的用法

    priority_queue本质是一个堆. 1. 头文件是#include<queue> 2. 关于priority_queue中元素的比较 模板申明带3个参数:priority_queu ...

  7. MyBatis源码解析(八)——Type类型模块之TypeAliasRegistry(类型别名注册器)

    原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6705769.html 1.回顾 前面几篇讲了数据源模块,这和之前的事务模块都是enviro ...

  8. Hyperledger Fabric链码之三

    在<Hyperledger Fabric链码之一>和<Hyperledger Fabric链码之二>中我们介绍了链码的定义,并通过dev网络测试了测试了自己编写的链码程序. 本 ...

  9. 小型音乐播放器插件APlayer.js的简单使用例子

      本篇博客将会给出一个小型音乐播放器插件APlayer.js的使用例子.关于APlayer.js的具体介绍和Github地址,可以参考: https://github.com/MoePlayer/A ...

  10. 收官之作:利用Microsoft Teams构建中大型社区的技术架构与运营经验

    这是我在 精彩又一年:Microsoft Teams技术社区2018年度回顾和展望 活动上面的主题分享,我用Microsoft Teams技术社区的实践经验,给大家整理和分享了技术架构和一些运营经验. ...