Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）

Kafka0.8版本基于receiver接受器去接受kafka topic中的数据（并演示reduceByKeyAndWindow的使用）

依赖

<dependency>

    <groupId>org.apache.spark</groupId>

    <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>

    <version>2.1.3</version>

</dependency>

代码

package com.zy.kafka2streaming

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.immutable

/**

  * sparkStreaming整合kafka: 基于receiver接受器去接受kafka topic中的数据，使用高级api（消息的偏移量由zk维护）

  * kafka0.8版本才有createStream 1.0就没有了

  * reduceByKeyAndWindow算子使用（开窗函数）

  *

  * 前提:需要开启生产者往kafka中写入数据

  */

object SparkStreamingKafkaReceiver {

  def main(args: Array[String]): Unit = {

    //sparkConf  开启WAL日志，保证数据源的安全性

    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreamingKafkaReceiver").setMaster("local[4]").set("spark.streaming.receiver.writeAheadLog.enable", "true")

    //sc

    val sc: SparkContext = new SparkContext(sparkConf)

    sc.setLogLevel("WARN")

    //构建ssc

    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))

    //设置checkpoint目录

    ssc.checkpoint("./spark-receiver")

    //接收kafka数据

    //1 指定zk地址

    val zkQuorum = "bigdata-01:2181,bigdata-02:2181,bigdata-03:2181"

    //2 消费者groupid

    val groupId = "zyTest"

    // 指定topic有关信息 key:表示topic的名称，value:表示每一个receiver接收器使用多少个线程去消费topic数据

    val topic = Map("sparkDemo" -> 1)

    //使用多个receiver接收(循环创建 并放到集合中)

    val receiverList: immutable.IndexedSeq[ReceiverInputDStream[(String, String)]] = (1 to 3).map(x => {

      val stream: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topic)

      stream

    })

    //把一个集合中多个Dstream数据汇总成一个Dstream

    val unionStream: DStream[(String, String)] = ssc.union(receiverList)

    //获取topic数据 第二个是value

    val data: DStream[String] = unionStream.map(_._2)

    //切分

    val words: DStream[String] = data.flatMap(_.split(","))

    //计数

    val wordsAndOne: DStream[(String, Int)] = words.map((_, 1))

    //聚合

    //val result: DStream[(String, Int)] = wordsAndOne.reduceByKey(_ + _)

    /**

      * 开窗函数 reduceByKeyAndWindow  三个参数

      * 第一个：逻辑函数

      * 第二个：表示窗口的长度

      * 第三个：表示窗口的滑动时间间隔，每隔多久计算一次

      *

      * 每5秒统计前15秒的结果

      */

    val result: DStream[(String, Int)] = wordsAndOne.reduceByKeyAndWindow((x: Int, y: Int) => x + y, Seconds(15), Seconds(5))

    //打印

    result.print()

    //开启流计算

    ssc.start()

    ssc.awaitTermination()

  }

}

Kafka1.0版本整合Kafka（并演示updateStateByKey的使用）

依赖

<dependency>

    <groupId>org.apache.spark</groupId>

    <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>

    <version>2.1.3</version>

</dependency>

代码

package com.zy.kafka2streaming

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

import org.apache.spark.streaming.kafka010.KafkaUtils

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * sparkStreaming整合kafka:利用低级api（消息的offset不再由zk去维护,有streaming处理完数据去维护）

  * updateStateByKey算子的使用（历史累计）

  * 前提:需要开启生产者往kafka中写入数据

  */

object SparkStreamingKafkaDirect {

  def main(args: Array[String]): Unit = {

    //sparkConf

    val sparkConf: SparkConf = new SparkConf().setAppName("SparkStreamingKafkaDirect").setMaster("local[4]")

    //sc

    val sc: SparkContext = new SparkContext(sparkConf)

    sc.setLogLevel("WARN")

    //sparkStreaming

    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))

    //checkpoint

    ssc.checkpoint("./spark-direct")

    //----------------获取kafka中的数据-------------------

    //kafka0.8版本写法

    //注意 这里0.8版本的参数是zk的地址 1.0版本的是kafka的地址

    //    val kafkaParams = Map("bootstrap.servers" -> "bigdata-01:9092,bigdata-02:9092,bigdata-03:9092", "groupId" -> "sparkDirect")

    //topic  可以设置多个topic

    //    val topics = Set("sparkDemo")

    // KafkaUtils.createDirectStream 0.8版本的写法

    //    val dstream: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

    /**

      * 官网kafka1.0版本  Creating a Direct Stream  示例

      * import org.apache.kafka.clients.consumer.ConsumerRecord

      * import org.apache.kafka.common.serialization.StringDeserializer

      * import org.apache.spark.streaming.kafka010._

      * import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

      * import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

      * *

      * val kafkaParams = Map[String, Object](

      * "bootstrap.servers" -> "localhost:9092,anotherhost:9092",

      * "key.deserializer" -> classOf[StringDeserializer],

      * "value.deserializer" -> classOf[StringDeserializer],

      * "group.id" -> "use_a_separate_group_id_for_each_stream",

      * "auto.offset.reset" -> "latest",

      * "enable.auto.commit" -> (false: java.lang.Boolean)

      * )

      * *

      * val topics = Array("topicA", "topicB")

      * val stream = KafkaUtils.createDirectStream[String, String](

      * streamingContext,

      * PreferConsistent,

      * Subscribe[String, String](topics, kafkaParams)

      * )

      * *

      *stream.map(record => (record.key, record.value))

      */

    //1.0版本的写法

    val kafkaParams = Map[String, Object](

      "bootstrap.servers" -> "bigdata-01:9092,bigdata-02:9092,bigdata-03:9092",

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> "zy_test_direct",

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (false: java.lang.Boolean)

    )

    val topics = Set("sparkDemo")

    val dstream = KafkaUtils.createDirectStream[String, String](ssc, PreferConsistent, Subscribe[String, String](topics, kafkaParams))

    //--------------------------获取topic数据----------------------------

    //0.8版本可以这么写 1.0版本不能这么写了

    //val data: DStream[String] = dstream.map(_._2)

    //1.0版本 DStream.map

    val data: DStream[String] = dstream.map(_.value())

    //切分

    val words: DStream[String] = data.flatMap(_.split(","))

    //计数

    val wordsAndOne: DStream[(String, Int)] = words.map((_, 1))

    //聚合

    //val result: DStream[(String, Int)] = wordsAndOne.reduceByKey(_ + _)

    /**

      * 使用updateStateByKey 累计统计单词出现的次数

      * 需要传一个函数进去

      */

    val result: DStream[(String, Int)] = wordsAndOne.updateStateByKey(updateFunction)

    //打印

    result.print()

    //开启流计算

    ssc.start()

    ssc.awaitTermination()

  }

  /**

    *

    * @param newValues    表示当前批次汇总成的(word,1)中相同单词的所有的1

    * @param historyCount 历史的所有相同key的value总和

    * @return

    */

  def updateFunction(newValues: Seq[Int], historyCount: Option[Int]): Option[Int] = {

    //新的计数等于原来的计数加上这次数据的sum

    val newCount: Int = historyCount.getOrElse(0) + newValues.sum

    //将累加后的结果放到Option的子集Some中返回

    Some(newCount)

  }

}

kafka2streaming的java实现版本

Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）的更多相关文章

Spark学习之路（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: s ...
Spark 系列（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下 ...
spark streaming 整合 kafka(一)
转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合 ...
spark streaming 整合kafka(二)
转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的 ...
Spark之 Spark Streaming整合kafka(Java实现版本)
pom依赖 <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7 ...
spark streaming整合kafka
版本说明:spark:2.2.0: kafka:0.10.0.0 object StreamingDemo { def main(args: Array[String]): Unit = { Logg ...
Spark Streaming 整合 Kafka
一:通过设置检查点,实现单词计数的累加功能 object StatefulKafkaWCnt { /** * 第一个参数:聚合的key,就是单词 * 第二个参数:当前批次产生批次该单词在每一个分区出现 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Spark Streaming和Kafka整合是如何保证数据零丢失
转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢 ...

随机推荐

c++ template不能有cpp
c++的template只能把生命和定义都放在.h文件里,不然会出错
ES6变量解构赋值
ES6 允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构ES6之前我们申明多个变量需要按照下面的方法: let l a=1; let b=2; let c=3; let d=4; ...
springMVC+Mybatis的maven-web项目的pom.xml文件内容
pom.xml文件内容  <project xmlns="http://maven.apache.or ...
cargo rust 包管理工具
1. 安装 yum 或者官方提供的包,比较简单 curl -sSL https://static.rust-lang.org/rustup.sh | sh 2. 帮助命令 cargo --help U ...
HDFS（三）
DataNode 下面的数据文件有两种类型,一种是数据块,一种是数据块的描述文件(元数据文件),后者文件后面带有.meta后缀: Version文件字段内容其实和NameNode里面涵义是一致的: 安 ...
eclipse git 开发操作流程
1.eclipse git 开发操作流程 1.1流程简介 1)master主分支,当开发版本得到了充分的验证之后,才能将分支合入master,master为可产品化发布的状态. 2)develop分支 ...
ElasticSearch所使用的倒排索引的思想和使用场景
背景: 在关系数据库系统里,索引是检索数据最有效率的方式,.但对于搜索引擎,它并不能满足其特殊要求: 1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至 ...
HDU 1166 敌兵布阵（线段树模版题）
敌兵布阵 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submis ...
安装git之后,桌面图标出现很多的蓝色问号
今天在搞git之后,开机发现多了好多的问号: 这是因为我们在桌面创建了版本库了. 这个时候我们在系统中吧隐藏的文件夹显示出来.这个时候会看到桌面上有一个隐藏的git文件夹.把这个文件夹删除掉之后,刷新 ...
前端性能优化：gzip压缩文件传输数据
一.文件压缩的好处前端生产环境中将js.css.图片等文件进行压缩的好处显而易见,通过减少数据传输量减小传输时间,节省服务器网络带宽,提高前端性能. 二.http协议如何支持压缩文件的传输 1.浏览 ...

Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）

Kafka0.8版本基于receiver接受器去接受kafka topic中的数据（并演示reduceByKeyAndWindow的使用）

Kafka1.0版本整合Kafka（并演示updateStateByKey的使用）

Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）的更多相关文章

随机推荐

热门专题