Spark

一.coalesce

　　1.简介

　　　　coalesce常用来合并分区，第二个参数是合并分区时是否产生shuffle。true为产生shuffle，false为不产生shuffle。默认是false不产生shuffle。如果coalesce设置的分区数比原来的分区数还大的话若设置为false则不起作用。如果设置为true则效果等价于repartition。即repartition(numPartitions) = coalesce(numPartitions)。

　　2.测试数据

　　　　val array = Array("spark,scala,6", "hadoop,java,12", "tensorflow,python,8", "solr,java,16", "hbase,java,11")

　　3.代码　　　　　　　　　　　

　　　　/**
  　　　　* coalesce算子，常用于减少分区
 　　　　 */
　　　　val befParNum = rdd.getNumPartitions
　　　　rdd = rdd.coalesce(1, false) // true为产生shuffle
　　　　val coalParNum = rdd.getNumPartitions
　　　　/**
 　　　　 * repartition与之类型，一般增大分区数
 　　　　 */
　　　　rdd = rdd.repartition(3)
　　　　val reParNum = rdd.getNumPartitions
　　　　println("初始分区数：" + befParNum + ",coalesce分区后：" + coalParNum + ",repartition分区后：" + reParNum)

　　4.结果

　　　　初始分区数：2,coalesce分区后：1,repartition分区后：3

二.zip，zipWithIndex

　　1.简介

　　　　zip将两个RDD中的元素变成一个KV格式的RDD，两个RDD的每个分区元素个数必须相同。zipWithIndex该函数将RDD中的元素和这个元素在RDD中的索引下标【从0开始】组合成【K,V】键值对。

　　2.测试数据

　　 val zip_array_left = Array(1,2,5,6,7,5,3,1)
　　 val zip_array_left_2 = Array(1,2,5,6,7,8,9,0)
　　 val zip_array_right = Array("spark", "scala", "hive", "hbase", "python", "hive", "hbase", "hbase")

　　3.代码

　　 /**
  　 　* zip
 　 　 */
　　 //to rdd
　 　val zip_left = sc.parallelize(zip_array_left)
　 　val zip_left_2 = sc.parallelize(zip_array_left_2)
　 　val zip_right = sc.parallelize(zip_array_right)

　 　//zip
　 　val zip = zip_left.zip(zip_right)
　 　zip.foreach(println)
　 　println("------------------")

　 　val zip_2 = zip_left_2.zip(zip_right)
　 　/**
　 　  * zipWithIndex
   　　*/
　 　val zip_index = zip.zipWithIndex()
　 　zip_index.foreach(println)

　　4.结果

　　　　(1,spark)
　　　　(2,scala)
　　　　(5,hive)
　　　　(6,hbase)
　　　　(7,python)
　　　　(5,hive)
　　　　(3,hbase)
　　　　(1,hbase)
　　　　------------------
　　　　((1,spark),0)
　　　　((7,python),4)
　　　　((2,scala),1)
　　　　((5,hive),2)
　　　　((5,hive),5)
　　　　((6,hbase),3)
　　　　((3,hbase),6)
　　　　((1,hbase),7)

三.countByKey，countByValue

　　1.简介

　　　　countByKey作用在K,V格式的RDD之上，统计相同key的个数。countByValue作用在K,V格式的RDD之上，统计相同value的个数。

　　2.测试数据

　　　　同上

　　3.代码

　 　/**
 　　  * countByKey
　　   */
　 　val zip_key = zip.countByKey()
　　 zip_key.foreach(println)
　　 println("------------------")
　　 /**
　　   * countByValue
　　   */
　　 val zip_value = zip.countByValue()
　　 zip_value.foreach(println)

　　4.结果　

　　　　(5,2)
　　　　(1,2)
　　　　(6,1)
　　　　(2,1)
　　　　(7,1)
　　　　(3,1)
　　　　------------------
　　　　((7,python),1)
　　　　((1,spark),1)
　　　　((2,scala),1)
　　　　((1,hbase),1)
　　　　((3,hbase),1)
　　　　((6,hbase),1)
　　　　((5,hive),2)

四.cogroup

　　1.简介

　　　　cogroup 对两个内部数据结构为元组（仅有两个元素的元组）的数据进行匹配，把匹配上的value值保存到一个元组中。

　　2.测试数据

　　　　同上

　　3.代码　　

　　 zip.cogroup(zip_2).foreach(println)

　　4.结果

　　　　(0,(CompactBuffer(),CompactBuffer(hbase)))
　　　　(1,(CompactBuffer(spark, hbase),CompactBuffer(spark)))
　　　　(7,(CompactBuffer(python),CompactBuffer(python)))
　　　　(3,(CompactBuffer(hbase),CompactBuffer()))
　　　　(6,(CompactBuffer(hbase),CompactBuffer(hbase)))
　　　　(9,(CompactBuffer(),CompactBuffer(hbase)))
　　　　(8,(CompactBuffer(),CompactBuffer(hive)))
　　　　(5,(CompactBuffer(hive, hive),CompactBuffer(hive)))
　　　　(2,(CompactBuffer(scala),CompactBuffer(scala)))　

五.flatten

　　1.简介

　　　　把多层集合数据展开成一个集合。

　　2.测试数据

　　 val sourceDate = Array("zhen@zhen01/2018-09-04_18;57;02_SOURCE",
 　　  "zhen@zhen02/2018-09-05_11;37;11_SOURCE","zhen@zhen03/2018-09-06_11;37;11_TEST")
　　 val resultDate = Array("zhen@zhen01/2018-09-04_18;57","zhen@zhen02/2018-09-05_11;37",
 　 　 "zhen@zhen03/2018-09-06_11;37")

　　3.代码

　　 val seq = Seq(sourceDate, resultDate)
　　 seq.flatten.foreach(println)

　　4.结果

　　　　zhen@zhen01/2018-09-04_18;57;02_SOURCE
　　　　zhen@zhen02/2018-09-05_11;37;11_SOURCE
　　　　zhen@zhen03/2018-09-06_11;37;11_TEST
　　　　zhen@zhen01/2018-09-04_18;57
　　　　zhen@zhen02/2018-09-05_11;37
　　　　zhen@zhen03/2018-09-06_11;37

Spark算子代码实践的更多相关文章

UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
【Spark算子】：reduceByKey、groupByKey和combineByKey
在spark中,reduceByKey.groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom ...
我的Spark SQL单元测试实践
最近加入一个Spark项目,作为临时的开发人员协助进行开发工作.该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性.在这种原 ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
ReactiveCocoa代码实践之-更多思考
三.ReactiveCocoa代码实践之-更多思考 1. RACObserve()宏形参写法的区别之前写代码考虑过 RACObserve(self.timeLabel , text) 和 RACOb ...
ReactiveCocoa代码实践之-RAC网络请求重构
前言 RAC相比以往的开发模式主要有以下优点:提供了统一的消息传递机制:提供了多种奇妙且高效的信号操作方法:配合MVVM设计模式和RAC宏绑定减少多端依赖. RAC的理论知识非常深厚,包含有FRP,高 ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...

随机推荐

Redux 实现过程的推演
这是一篇浅入浅出的 Redux 实现过程的推演笔记!正常来说应该是要从源码下手开始解析,这里是逆向推演,假如有需求是要这么一个东西,那么该如何从零开始实现? 通过该笔记,更多的是希望自己能够多熟悉从无 ...
centOS改编码
http://jingyan.baidu.com/article/ab69b270de8b4f2ca7189f1d.html cd /rootvim .bashrcLANG="zh_CN.G ...
SQL语句方法语法总结（一）
1.distinct:返回不重复.唯一的值. select distinct col_name from tbl_name --表中的col_name 列的值如果有10条一样的,仅返回一条. 2.w ...
Linux软件包管理之yum在线管理
目录 1.yum在线管理 2.网络 yum 源 3.光盘 yum 源搭建步骤 ①.挂载光盘 ②.让网络 yum 源失效 ③.修改光盘yum源文件 ④.输入yum list 可以查看光盘yum源里面的软 ...
你可能不知道的setInterval的坑
你可能不知道的setInterval的坑之前印象中一直记得setInterval有一些坑,但是一直不是很清楚那些坑是什么.今天去摸索了下之后,决定来做个记录以免自己忘记,也希望让更多人了解到这个坑. ...
javaScript之变量与数据类型
http://www.cnblogs.com/yuanchenqi/articles/5980312.html 在了解变量之前,我们首先学习JavaScript的引入方式 JavaScript的引入方 ...
[转]PHP开发者必须了解的工具—Composer
本文转自:https://blog.csdn.net/Zhihua_W/article/details/80345973 Composer是PHP 用来管理依赖(dependency)关系的工具.你可 ...
Handsontable Dropdown with key-value pair
在使用handsontable的时候,本身的下拉列表无法满足业务需求,需要使用key-value类型的dropdown. 找了半天终于找到了一个可以满足需求的参考方案此方案完美的解决了我的问题. ...
log4j-1.2.6升级到log4j-2.9.0
0.工程是普通java web工程,不是maven工程.需要升级log4j 步骤发下: 1. 在build path中移除项目对log4j-1.2.6.jar的引用,并物理删除log4j-1.2.6 ...
ASP.NET MVC 学习笔记-5.Controller与View的数据传递
ViewData属性 ViewData属性是System.Web.Mvc.ControllerBase中的一个属性,它相当于一个数据字典.Controller中向该字典写入数据,ViewData[“K ...

Spark算子代码实践

Spark

一.coalesce

二.zip，zipWithIndex

三.countByKey，countByValue

四.cogroup

五.flatten

Spark算子代码实践的更多相关文章

随机推荐

热门专题