Spark算子代码实践
Spark
一.coalesce
1.简介
coalesce常用来合并分区,第二个参数是合并分区时是否产生shuffle。true为产生shuffle,false为不产生shuffle。默认是false不产生shuffle。如果coalesce设置的分区数比原来的分区数还大的话若设置为false则不起作用。如果设置为true则效果等价于repartition。即repartition(numPartitions) = coalesce(numPartitions)。
2.测试数据
val array = Array("spark,scala,6", "hadoop,java,12", "tensorflow,python,8", "solr,java,16", "hbase,java,11")
3.代码
/**
* coalesce算子,常用于减少分区
*/
val befParNum = rdd.getNumPartitions
rdd = rdd.coalesce(1, false) // true为产生shuffle
val coalParNum = rdd.getNumPartitions
/**
* repartition与之类型,一般增大分区数
*/
rdd = rdd.repartition(3)
val reParNum = rdd.getNumPartitions
println("初始分区数:" + befParNum + ",coalesce分区后:" + coalParNum + ",repartition分区后:" + reParNum)
4.结果
初始分区数:2,coalesce分区后:1,repartition分区后:3
二.zip,zipWithIndex
1.简介
zip将两个RDD中的元素变成一个KV格式的RDD,两个RDD的每个分区元素个数必须相同。zipWithIndex该函数将RDD中的元素和这个元素在RDD中的索引下标【从0开始】组合成【K,V】键值对。
2.测试数据
val zip_array_left = Array(1,2,5,6,7,5,3,1)
val zip_array_left_2 = Array(1,2,5,6,7,8,9,0)
val zip_array_right = Array("spark", "scala", "hive", "hbase", "python", "hive", "hbase", "hbase")
3.代码
/**
* zip
*/
//to rdd
val zip_left = sc.parallelize(zip_array_left)
val zip_left_2 = sc.parallelize(zip_array_left_2)
val zip_right = sc.parallelize(zip_array_right) //zip
val zip = zip_left.zip(zip_right)
zip.foreach(println)
println("------------------") val zip_2 = zip_left_2.zip(zip_right)
/**
* zipWithIndex
*/
val zip_index = zip.zipWithIndex()
zip_index.foreach(println)
4.结果
(1,spark)
(2,scala)
(5,hive)
(6,hbase)
(7,python)
(5,hive)
(3,hbase)
(1,hbase)
------------------
((1,spark),0)
((7,python),4)
((2,scala),1)
((5,hive),2)
((5,hive),5)
((6,hbase),3)
((3,hbase),6)
((1,hbase),7)
三.countByKey,countByValue
1.简介
countByKey作用在K,V格式的RDD之上,统计相同key的个数。countByValue作用在K,V格式的RDD之上,统计相同value的个数。
2.测试数据
同上
3.代码
/**
* countByKey
*/
val zip_key = zip.countByKey()
zip_key.foreach(println)
println("------------------")
/**
* countByValue
*/
val zip_value = zip.countByValue()
zip_value.foreach(println)
4.结果
(5,2)
(1,2)
(6,1)
(2,1)
(7,1)
(3,1)
------------------
((7,python),1)
((1,spark),1)
((2,scala),1)
((1,hbase),1)
((3,hbase),1)
((6,hbase),1)
((5,hive),2)
四.cogroup
1.简介
cogroup 对两个内部数据结构为元组(仅有两个元素的元组)的数据进行匹配,把匹配上的value值保存到一个元组中。
2.测试数据
同上
3.代码
zip.cogroup(zip_2).foreach(println)
4.结果
(0,(CompactBuffer(),CompactBuffer(hbase)))
(1,(CompactBuffer(spark, hbase),CompactBuffer(spark)))
(7,(CompactBuffer(python),CompactBuffer(python)))
(3,(CompactBuffer(hbase),CompactBuffer()))
(6,(CompactBuffer(hbase),CompactBuffer(hbase)))
(9,(CompactBuffer(),CompactBuffer(hbase)))
(8,(CompactBuffer(),CompactBuffer(hive)))
(5,(CompactBuffer(hive, hive),CompactBuffer(hive)))
(2,(CompactBuffer(scala),CompactBuffer(scala)))
五.flatten
1.简介
把多层集合数据展开成一个集合。
2.测试数据
val sourceDate = Array("zhen@zhen01/2018-09-04_18;57;02_SOURCE",
"zhen@zhen02/2018-09-05_11;37;11_SOURCE","zhen@zhen03/2018-09-06_11;37;11_TEST")
val resultDate = Array("zhen@zhen01/2018-09-04_18;57","zhen@zhen02/2018-09-05_11;37",
"zhen@zhen03/2018-09-06_11;37")
3.代码
val seq = Seq(sourceDate, resultDate)
seq.flatten.foreach(println)
4.结果
zhen@zhen01/2018-09-04_18;57;02_SOURCE
zhen@zhen02/2018-09-05_11;37;11_SOURCE
zhen@zhen03/2018-09-06_11;37;11_TEST
zhen@zhen01/2018-09-04_18;57
zhen@zhen02/2018-09-05_11;37
zhen@zhen03/2018-09-06_11;37
Spark算子代码实践的更多相关文章
- UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现 测试数据 java代码 package com.hzf.spark.study; import ...
- UserView--第一种方式set去重,基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现 测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
- Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
- 【Spark算子】:reduceByKey、groupByKey和combineByKey
在spark中,reduceByKey.groupByKey和combineByKey这三种算子用的较多,结合使用过程中的体会简单总结: 我的代码实践:https://github.com/wwcom ...
- 我的Spark SQL单元测试实践
最近加入一个Spark项目,作为临时的开发人员协助进行开发工作.该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者在生产系统检验程序运行结果的正确性.在这种原 ...
- Spark算子---实战应用
Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...
- ReactiveCocoa代码实践之-更多思考
三.ReactiveCocoa代码实践之-更多思考 1. RACObserve()宏形参写法的区别 之前写代码考虑过 RACObserve(self.timeLabel , text) 和 RACOb ...
- ReactiveCocoa代码实践之-RAC网络请求重构
前言 RAC相比以往的开发模式主要有以下优点:提供了统一的消息传递机制:提供了多种奇妙且高效的信号操作方法:配合MVVM设计模式和RAC宏绑定减少多端依赖. RAC的理论知识非常深厚,包含有FRP,高 ...
- (转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
随机推荐
- sql server 锁与事务拨云见日(下)
在锁与事务系列里已经写完了上篇中篇,这次写完下篇.这个系列俺自认为是有条不紊的进行,但感觉锁与事务还是有多很细节没有讲到,温故而知新可以为师矣,也算是一次自我提高总结吧,也谢谢大伙的支持.在上一篇的末 ...
- CentOS5/6/7系统下搭建安装Amabari大数据集群时出现SSLError: Failed to connect. Please check openssl library versions.错误的解决办法(图文详解)
不多说,直接上干货! ========================== Creating target directory... ========================== Comman ...
- shell脚本--echo和printf打印输出
bash&shell系列文章:http://www.cnblogs.com/f-ck-need-u/p/7048359.html 注:本文关于引号等特殊符号的处理仅仅只是几个例子,想要彻底搞明 ...
- Python面向对象基础:编码细节和注意事项
在前面,我用了3篇文章解释python的面向对象: 面向对象:从代码复用开始 面向对象:设置对象属性 类和对象的名称空间 本篇是第4篇,用一个完整的示例来解释面向对象的一些细节. 例子的模型是父类Em ...
- zabbix实现百台服务器的自动化监控--技术流ken
前言 最近有小伙伴通过Q联系到我说:公司现在有百多台服务器,想要部署zabbix进行监控,怎么实现自动化全网监控? 本篇博客将讲解一个我工作时做的一个实际项目,现在写出来供大家以后参考使用. 实现自动 ...
- golang高性能RPC:Apache Thrift安装使用完全攻略
在企业应用中RPC的使用可以说是十分的广泛,使用该技术可以方便的与各种程序交互而不用考虑其编写使用的语言. 如果你对RPC的概念还不太清楚,可以点击这里. 现今市面上已经有许多应用广泛的RPC框架,比 ...
- mysqldump备份(Windows)
先说下思路,每天凌晨1点备份线上云服务器上的MySQL数据库,将备份的sql文件拷贝下来. 第一步:通过搜索引擎搜索相关可借鉴的文章.搜索关键字"Windows MySQL 备份" ...
- Docker虚拟机理论
Docker虚拟机架构 ◆ Docker架构 Docker创建的所有虚拟实例共用同一个Linux内核,对硬件占用较小,属于轻量级虚拟机 Docker镜像与容 ...
- DataTable和List互转
/// <summary> /// list转datatable /// </summary> /// <typeparam name="T"> ...
- Java爬虫框架Jsoup学习记录
Jsoup的作用 当你想获得某网页的内容,可以使用此框架做个爬虫程序,爬某图片网站的图片(先获得图片地址,之后再借助其他工具下载图片)或者是小说网站的小说内容 我使用Jsoup写出的一款小说下载器,小 ...