Spark高级函数应用【combineByKey、transform】

一.combineByKey算子简介

　　功能：实现分组自定义求和及计数。

　　特点：用于处理(key,value)类型的数据。

　　实现步骤：

　　　　1.对要处理的数据进行初始化，以及一些转化操作

　　　　2.检测key是否是首次处理，首次处理则添加，否则则进行分区内合并【根据自定义逻辑】

　　　　3.分组合并，返回结果

二.combineByKey算子代码实战

 package big.data.analyse.scala.arithmetic

 import org.apache.spark.sql.SparkSession

 /**

   * Created by zhen on 2019/9/7.

   */

 object CombineByKey {

   def main (args: Array[String]) {

     val spark = SparkSession.builder().appName("CombineByKey").master("local[2]").getOrCreate()

     val sc = spark.sparkContext

     sc.setLogLevel("error")

     val initialScores = Array((("hadoop", "R"), 1), (("hadoop", "java"), 1),

                               (("spark", "scala"), 1), (("spark", "R"), 1), (("spark", "java"), 1))

     val d1 = sc.parallelize(initialScores)

     val result = d1.map(x => (x._1._1, (x._1._2, x._2))).combineByKey(

       (v : (String, Int)) => (v : (String, Int)), // 初始化操作，当key首次出现时初始化以及执行一些转化操作

       (c : (String, Int), v : (String, Int)) => (c._1 + "," + v._1, c._2 + v._2), // 分区内合并，非首次出现时进行合并

       (c1 : (String,Int),c2 : (String,Int)) => (c1._1 + "," + c2._1, c1._2 + c2._2)) // 分组合并

       .collect()

     result.foreach(println)

   }

 }

三.combineByKey算子执行结果

四.transform算子简介

　　在spark streaming中使用，用于实现把一个DStream转化为另一个DStream。

五.transform算子代码实现

 package big.data.analyse.streaming

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.SparkConf

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 /**

   * Created by zhen on 2019/09/21.

   */

 object StreamingSocket {

   def functionToCreateContext():StreamingContext = {

     val conf = new SparkConf().setMaster("local[2]").setAppName("StreaingTest")

     val ssc = new StreamingContext(conf, Seconds(10))

     val lines = ssc.socketTextStream("192.168.245.137", 9999)

     val words = lines.flatMap(_.split(" "))

     val pairs = words.map(word=>(word,1))

     /**

       * 过滤内容

       */

     val filter = ssc.sparkContext.parallelize(List("money","god","oh","very")).map(key => (key,true))

     val result = pairs.transform(rdd => { // transform：把一个DStream转化为另一个SDtream

       val leftRDD = rdd.leftOuterJoin(filter)

       val word = leftRDD.filter( tuple =>{

         val y = tuple._2

         if(y._2.isEmpty){

           true

         }else{

           false

         }

       })

       word.map(tuple =>(tuple._1,1))

     }).reduceByKey(_+_)

     result.foreachRDD(rdd => {

       if(!rdd.isEmpty()){

         rdd.foreach(println)

       }

     })

     ssc.checkpoint("D:\\checkpoint")

     ssc

   }

   Logger.getLogger("org").setLevel(Level.WARN) // 设置日志级别

   def main(args: Array[String]) {

     val ssc = StreamingContext.getOrCreate("D:\\checkpoint", functionToCreateContext _)

     ssc.start()

     ssc.awaitTermination()

     ssc.stop()

   }

 }

六.transform算子执行结果

　　输入：

　　输出：

　　备注：若在执行流计算时报：Some blocks could not be recovered as they were not found in memory. To prevent such data loss, enable Write Ahead Log (see programming guide for more details.，可以清空checkpoint目录下对应的数据【当前执行生成的数据】，可以解决这个问题。

Spark高级函数应用【combineByKey、transform】的更多相关文章

Spark核心RDD：combineByKey函数详解
https://blog.csdn.net/jiangpeng59/article/details/52538254 为什么单独讲解combineByKey? 因为combineByKey是Spark ...
spark aggregate函数详解
aggregate算是spark中比较常用的一个函数,理解起来会比较费劲一些,现在通过几个详细的例子带大家来着重理解一下aggregate的用法. 1.先看看aggregate的函数签名在spark的 ...
Spark高级数据分析——纽约出租车轨迹的空间和时间数据分析
Spark高级数据分析--纽约出租车轨迹的空间和时间数据分析一.地理空间分析: 二.pom.xml 原文地址:https://www.jianshu.com/p/eb6f3e0c09b5 作者:II ...
javascript高级函数
高级函数安全的类型检测 js内置的类型检测并非完全可靠,typeof操作符难以判断某个值是否为函数 instanceof在多个frame的情况下,会出现问题. 例如:var isArray = va ...
js 高级函数之示例
js 高级函数作用域安全构造函数 function Person(name, age) { this.name = name; this.age = age; ...
浅谈JS中的高级函数
在JavaScript中,函数的功能十分强大.它们是第一类对象,也可以作为另一个对象的方法,还可以作为参数传入另一个函数,不仅如此,还能被一个函数返回!可以说,在JS中,函数无处不在,无所不能,堪比孙 ...
php一些高级函数方法
PHP高级函数 1.call_user_func (http://php.net/manual/zh/function.call-user-func.php) 2.get_class (http:// ...
Spark 用户自定义函数 Java 示例
Spark UDF Java 示例在这篇文章中提到了用Spark做用户昵称文本聚类分析,聚类需要选定K个中心点,然后迭代计算其他样本点到中心点的距离.由于中文文字分词之后(n-gram)再加上昵称允 ...
Python函数式编程（二）：常见高级函数
一个函数的参数中有函数作为参数,这个函数就为高级函数. 下面学习几个常见高级函数. ---------------------------------------------------------- ...

随机推荐

删除github中某个文件夹
在上传项目到github时,忘记忽略了某个文件夹target,就直接push上去了, 最后意识到了此问题,决定删除掉远程仓库中的target文件夹删除前: 删除后: 在github上只能删除仓库,却 ...
ajax有哪些方法可以实现跨域？他们都有哪些局限性？
1.服务器端代理:在服务器端设置一个代理,由服务器端向跨域下的网站发出请求,再将请求结果返回给前端. 属于后端的技术,实现起来最麻烦. 2.jsonP,只支持get方式调用. 3.XHR2(cors) ...
【AGC009C】Division into Two
[AGC009C]Division into Two 题面洛谷题解首先有一个比较显然的\(n^2\)算法: 设\(f_{i,j}\)表示\(A\)序列当前在第\(i\)个,\(B\)序列当前在第 ...
LOJ2778 [BOI2018]基因工程随机化
题面不想写了...留坑吧... 基本思想可参照随机化解决判同问题的总结代码: #include<bits/stdc++.h> using namespace std; #define ...
centos7中将tomcat注册为系统服务
一.准备环境操作系统:CentOS Linux release 7.6.1810 (Core) tomcat:apache-tomcat-8.5.41.tar.gz 二.编辑catalina.sh ...
Ubuntu下安装配置SQLSERVER2017
摘要自微软官网: https://docs.microsoft.com/zh-cn/sql/linux/quickstart-install-connect-ubuntu 安装步骤: 1. 导入公共秘 ...
listings技巧
1. \lstdefinestyle 参考 https://blog.csdn.net/ProgramChangesWorld/article/details/52142313 我们在使用listin ...
使用CSS隐藏元素滚动条
如何隐藏滚动条,同时仍然可以在任何元素上滚动? 首先,如果需要隐藏滚动条并在内容溢出时显示滚动条,只需要设置overflow:auto样式即可.想要完全隐藏滚动条只需设置overflow:hidden ...
20189220余超团队博客——阅读软件app
项目名称小说阅读器项目功能注册登录用户信息.用户密码.用户图像修改书籍分类书架书籍搜索(作者名或书籍名) 书籍阅读(仅txt格式,暂不支持PDF等其他格式) 阅读字体.背景颜色.翻页效果 ...
malloc vs memset
malloc vs memset OS内存分配过程如下: 用户态程序使用malloc接口,分配虚拟地址. 用户程序访问该虚拟地址,比如memset. 硬件(MMU)需要将虚拟地址转换为物理地址. 硬件 ...