070 DStream中的transform和foreachRDD函数

1.说明
　　DStream的API不够满足使用的时候，可以使用这两个函数，将dstream转换为rdd，然后进行操作

2.transform

　　transform：将DStream的操作转换为RDD的操作，调用该api最终只需要返回一个新的RDD即可

3.程序

 package com.window.it

 import org.apache.spark.{SparkConf, SparkContext}

 import org.apache.spark.storage.StorageLevel

 import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

 import org.apache.spark.streaming.dstream.DStream

 import org.apache.spark.streaming.kafka.KafkaUtils

 object TransformDemo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setAppName("StreamingWindowOfKafka")

       .setMaster("local[*]")

     val sc = SparkContext.getOrCreate(conf)

     val ssc = new StreamingContext(sc, Seconds(5))

     // 当调用updateStateByKey函数API的时候，必须给定checkpoint dir

     // 路径对应的文件夹不能存在

     ssc.checkpoint("hdfs://linux-hadoop01.ibeifeng.com:8020/beifeng/spark/streaming/4525712")

     val kafkaParams = Map(

       "group.id" -> "streaming-kafka-78912151",

       "zookeeper.connect" -> "linux-hadoop01.ibeifeng.com:2181/kafka",

       "auto.offset.reset" -> "smallest"

     )

     val topics = Map("beifeng" -> 4) // topics中value是读取数据的线程数量，所以必须大于等于1

     val dstream = KafkaUtils.createStream[String, String, kafka.serializer.StringDecoder, kafka.serializer.StringDecoder](

       ssc, // 给定SparkStreaming上下文

       kafkaParams, // 给定连接kafka的参数信息 ===> 通过Kafka HighLevelConsumerAPI连接

       topics, // 给定读取对应topic的名称以及读取数据的线程数量

       StorageLevel.MEMORY_AND_DISK_2 // 指定数据接收器接收到kafka的数据后保存的存储级别

     ).map(_._2)

     val resultWordCount = dstream

       .filter(line => line.nonEmpty)

       .flatMap(line => line.split(" ").map((_, 1)))

       .reduceByKeyAndWindow(

         (a: Int, b: Int) => a + b,

         Seconds(15), // 窗口大小

         Seconds(10) // 滑动大小

       )

     resultWordCount.print() // 这个也是打印数据

     /**

       * transform：将DStream的操作转换为RDD的操作，调用该api最终只需要返回一个新的RDD即可

       */

     dstream.transform(rdd => {

       // 对rdd进行预处理

       val processedRDD = rdd

         .filter(line => line.nonEmpty)

         .flatMap(line => line.split(" ").map((_, 1)))

         .reduceByKey(_ + _)

       // 数据抽样，获取两个节点

       val seeder = processedRDD.takeSample(true, 2)

       // 对rdd进行处理操作, 将抽样数据和rdd中的数据进行比较，如果rdd中的word的出现次数大于等于抽样数据中的任何一个word的次数，次数*3；否则次数*2

       val brocast = rdd.sparkContext.broadcast(seeder)

       val resultRDD = processedRDD.mapPartitions(iter => {

         val seederValue = brocast.value

         iter.map {

           case (word, count) => {

             val vc = seederValue

               .filter(tuple => {

                 count >= tuple._2

               }).size

             if (vc == 0) {

               (word, 2, count * 2)

             } else {

               (word, 3, count * 3)

             }

           }

         }

       })

       resultRDD

     }).print()

     // 启动开始处理

     ssc.start()

     ssc.awaitTermination() // 等等结束，监控一个线程的中断操作

   }

 }

4.foreachRDD

　　作用和transform类型，将DStream的操作转换为RDD进行操作，区别：该api没有返回值

5.程序

 package com.window.it

 import org.apache.spark.storage.StorageLevel

 import org.apache.spark.streaming.kafka.KafkaUtils

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 import org.apache.spark.{SparkConf, SparkContext}

 object TransformDemo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setAppName("StreamingWindowOfKafka")

       .setMaster("local[*]")

     val sc = SparkContext.getOrCreate(conf)

     val ssc = new StreamingContext(sc, Seconds(5))

     // 当调用updateStateByKey函数API的时候，必须给定checkpoint dir

     // 路径对应的文件夹不能存在

     ssc.checkpoint("hdfs://linux-hadoop01.ibeifeng.com:8020/beifeng/spark/streaming/4525712")

     val kafkaParams = Map(

       "group.id" -> "streaming-kafka-78912151",

       "zookeeper.connect" -> "linux-hadoop01.ibeifeng.com:2181/kafka",

       "auto.offset.reset" -> "smallest"

     )

     val topics = Map("beifeng" -> 4) // topics中value是读取数据的线程数量，所以必须大于等于1

     val dstream = KafkaUtils.createStream[String, String, kafka.serializer.StringDecoder, kafka.serializer.StringDecoder](

       ssc, // 给定SparkStreaming上下文

       kafkaParams, // 给定连接kafka的参数信息 ===> 通过Kafka HighLevelConsumerAPI连接

       topics, // 给定读取对应topic的名称以及读取数据的线程数量

       StorageLevel.MEMORY_AND_DISK_2 // 指定数据接收器接收到kafka的数据后保存的存储级别

     ).map(_._2)

     val resultWordCount = dstream

       .filter(line => line.nonEmpty)

       .flatMap(line => line.split(" ").map((_, 1)))

       .reduceByKeyAndWindow(

         (a: Int, b: Int) => a + b,

         Seconds(15), // 窗口大小

         Seconds(10) // 滑动大小

       )

     resultWordCount.print() // 这个也是打印数据

     dstream.foreachRDD(rdd => {

       // TODO: 这里就可以做数据输出的代码编写

       // TODO: 这里不要为空

       rdd.foreachPartition(iter => {

         // TODO: 这里在实际环境中不要为空，为空可能会出现一些问题：内存泄露的问题

         println(iter.take(1))

       })

     })

     // 启动开始处理

     ssc.start()

     ssc.awaitTermination() // 等等结束，监控一个线程的中断操作

   }

 }

6.注意点

　　一个批次，DStream内部就只对应一个RDD，transform和foreachRDD API使用的过程中，不要考虑多个RDD的问题

070 DStream中的transform和foreachRDD函数的更多相关文章

Oracle中如何导出存储过程、函数、包和触发器的定义语句？如何导出表的结构？如何导出索引的创建语句？
Oracle中如何导出存储过程.函数.包和触发器的定义语句?如何导出表的结构?如何导出索引的创建语句? QQ群里有人问:如何导出一个用户下的存储过程? 麦苗答:方法有多种,可以使用DBMS_MET ...
58、Spark Streaming: DStream的output操作以及foreachRDD详解
一.output操作 1.output操作 DStream中的所有计算,都是由output操作触发的,比如print().如果没有任何output操作,那么,压根儿就不会执行定义的计算逻辑. 此外,即 ...
（数据科学学习手札97）掌握pandas中的transform
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介开门见山,在pandas中,transform是 ...
openswan中的in_struct和out_struct函数
openswan中的in_struct和out_struct函数文章目录 openswan中的in_struct和out_struct函数 1. 花絮 2. in_struct代码实现分析 3. 它 ...
跟着百度学PHP[5]函数篇2-PHP中的特殊形式的函数
目录...................................................... .00x1 可变函数在PHP里面如果说将“函数名称”赋予字符串类型的变量.在调用这个 ...
angular中的compile和link函数
angular中的compile和link函数前言这篇文章,我们将通过一个实例来了解 Angular 的 directives (指令)是如何处理的.Angular 是如何在 HTML 中找到这些 ...
ORACLE中的支持正则表达式的函数
ORACLE中的支持正则表达式的函数主要有下面四个:1,REGEXP_LIKE :与LIKE的功能相似2,REGEXP_INSTR :与INSTR的功能相似3,REGEXP_SUBSTR :与SUBS ...
JavaScript中常见的数组操作函数及用法
JavaScript中常见的数组操作函数及用法昨天写了个帖子,汇总了下常见的JavaScript中的字符串操作函数及用法.今天正好有时间,也去把JavaScript中常见的数组操作函数及用法总结一下 ...
JavaScript中常见的字符串操作函数及用法
JavaScript中常见的字符串操作函数及用法最近几次参加前端实习生招聘的笔试,发现很多笔试题都会考到字符串的处理,比方说去哪儿网笔试题.淘宝的笔试题等.如果你经常参加笔试或者也是一个过来人,相信 ...

随机推荐

[C]关于extern与struct
问题我曾经很困惑,就是在两个编译单元当中,如何把一个单元中声明的struct结构引入到另外一个单元中来,折腾了很久,后来发现这位大神的留言不是这么用的…… 类型的定义和类型变量的定义不同,类型定义 ...
python之numpy包知识要点总结
一.简介 numpy主要是用来存储和处理大型矩阵,提供了一种存储单一数据类型的多维数组对象------ndarray.还提供了多种运算函数,能够完成数据计算和统计分析,是数据分析的重要工具包. 二.数 ...
STM32L476应用开发之六：电池SOC检测
便携式设备由于使用需求而配备了锂电池,但使用过程中需要掌握电源的状态才能保证设备正常运行.而且在电池充放电的过程中,监控电池的充放电状态也是保证设备安全的需要. 1.硬件设计电池SOC检测是一个难题 ...
NPOI打印设置
打印设置主要包括方向设置.缩放.纸张设置.页边距等.NPOI 1.2支持大部分打印属性,能够让你轻松满足客户的打印需要. 方向设置首先是方向设置,Excel支持两种页面方向,即纵向和横向. 在NPOI ...
Oracle 系统调优
一:前言一:调整初始化参数 1: Oracle 初始化参数分类 2:主要系统调优参数介绍二:系统全局区 sga 优化 1:调整内存分配 2:调整日志缓冲区 1:查询当前oracle 实例的日志缓冲 ...
iframe与主框架跨域相互访问方法
iframe 与主框架相互访问方法 http://blog.csdn.net/fdipzone/article/details/17619673/ 1.同域相互访问假设A.html 与 b.htm ...
Cpython支持的进程与线程
一.multiprocessing模块介绍 python中的多线程无法利用CPU资源,在python中大部分情况使用多进程.python中提供了非常好的多进程包multiprocessing. mul ...
Django 之缓存
一.缓存由于Django是动态网站,所有每次请求均会去数据进行相应的操作,当程序访问量大时,耗时必然会更加明显,最简单解决方式是使用:缓存,缓存将一个某个views的返回值保存至内存或者memcac ...
algorithm与numeric的一些常用函数
numeric中的accumulated的基本用法: 来自:https://blog.csdn.net/u011499425/article/details/52756242 #include < ...
C++ Primer 笔记——数组
1.数组的大小是固定不变的,声明时必须指定大小(或者使用列表初始化),而且大小必须大于0,C++ Primer里面也建议,如果不确定元素的个数,请使用vector. ]; , , }; //数组长度固 ...

070 DStream中的transform和foreachRDD函数

070 DStream中的transform和foreachRDD函数的更多相关文章

随机推荐

热门专题