spark-streaming-连接kafka的两种方式

推荐系统的在线部分往往使用spark-streaming实现，这是一个很重要的环节。

在线流程的实时数据一般是从kafka获取消息到spark streaming

spark连接kafka两种方式在面试中会经常被问到，说明这是重点，下面为大家介绍一下这两种方法：

第一种方式：Receiver模式又称kafka高级api模式

效果：SparkStreaming中的Receivers，恰好kafka有发布、订阅，然而：这种方式企业不常用，说明有bug，不符合企业需求。因为：接收到的数据存储在Executor，会出现数据漏处理或者多处理状况。

简单的理解就是kafka把消息全部封装好，提供给spark去调用，本来kafka的消息分布在不同的partition上面，相当于做了一步数据合并，在发送给spark，故spark可以设置executor个数去消费这部分数据，效率相对慢一些。

代码实例：

object ReceiverKafkaWordCount {

 Logger.getLogger("org").setLevel(Level.ERROR)

 def main(args: Array[String]): Unit = {

   val Array(brokers, topics) = Array(Conf.KAFKA_BROKER, Conf.TEST_TOPIC)

   // Create context with 2 second batch interval

   val conf = new SparkConf()

     .setMaster("local")

     .setAppName("OnlineStreamHobby") //设置本程序名称

//      .set("auto.offset.reset","smallest")

   val ssc = new StreamingContext(conf, Seconds(2))

   //    从kafka取数据

   val kafkaParams: Map[String, String] = Map[String, String](

//      "auto.offset.reset" -> "smallest", //自动将偏移重置为最早的偏移

           "zookeeper.connect" -> Conf.ZK_HOST,

//      "bootstrap.servers" -> Common.KAFKA_BROKER_LIST,

     "group.id" -> "test"

   )

   val numThreads = 1

   val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

   val fact_streaming = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_2).map(_._2)

//    fact_streaming.print()

   val words = fact_streaming.flatMap(_.split(" "))

   val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

   wordCounts.print()

   ssc.checkpoint(".")

   //启动spark并设置执行时间

   ssc.start()

   ssc.awaitTermination()

 }

}

第二种方式：Direct模式又称kafka低级API模式

效果：每次到topic的每个partition依据偏移量进行获取数据，拉取数据以后进行处理，可以实现高可用

解释：在spark 1.3中引入了这种新的无接收器“直接”方法，以确保更强大的端到端保证。这种方法不是使用接收器来接收数据，而是定期查询kafka在每个topic+分partition中的最新偏移量，并相应地定义要在每个批次中处理的偏移量范围。当处理数据的作业启动时，Kafka简单的客户API用于读取Kafka中定义的偏移范围（类似于从文件系统读取文件）。请注意，此功能在Spark 1.3中为Scala和Java API引入

简单的理解就是spark直接从kafka底层中的partition直接获取消息，相对于Receiver模式少了一步，效率更快。但是这样一来spark中的executor的工作的个数就为kafka中的partition一致，设置再多的executor都不工作，同时偏移量也需要自己维护。

代码示例：

object DirectTest {

 def main(args: Array[String]) {

   val conf = new SparkConf().setAppName("kafka direct test").setMaster("local")

   val sc = new SparkContext(conf)

   val ssc = new StreamingContext(sc,Seconds(10))

   //kafka基本参数,yourBrokers你的brokers集群

   val kafkaParams = Map("metadata.broker.list" -> Conf.KAFKA_BROKER)

   val topic = "test"

   val customGroup = "testGroup"

   //新建一个zkClient，zk是你的zk集群，和broker一样，也是"IP:端口,IP端口..."

   /**

     *如果你使用val zkClient = new ZKClient(zk)新建zk客户端，

     *在后边读取分区信息的文件数据时可能会出现错误

     *org.I0Itec.zkclient.exception.ZkMarshallingError:

     *  java.io.StreamCorruptedException: invalid stream header: 7B226A6D at org.I0Itec.zkclient.serialize.SerializableSerializer.deserialize(SerializableSerializer.java:37) at org.I0Itec.zkclient.ZkClient.derializable(ZkClient.java:740) ..

     *那么使用我的这个新建方法就可以了，指定读取数据时的序列化方式

     **/

   val zkClient = new ZkClient(Conf.ZK_HOST, Integer.MAX_VALUE, 10000,ZKStringSerializer)

   //获取zk下该消费者的offset存储路径,一般该路径是/consumers/test_spark_streaming_group/offsets/topic_name

   val topicDirs = new ZKGroupTopicDirs(customGroup, topic)

   val children = zkClient.countChildren(s"${topicDirs.consumerOffsetDir}")

   //设置第一批数据读取的起始位置

   var fromOffsets: Map[TopicAndPartition, Long] = Map()

   var directKafkaStream : InputDStream[(String,String)] = null

   //如果zk下有该消费者的offset信息，则从zk下保存的offset位置开始读取，否则从最新的数据开始读取（受auto.offset.reset设置影响，此处默认）

   if (children > 0) {

     //将zk下保存的该主题该消费者的每个分区的offset值添加到fromOffsets中

     for (i <- 0 until children) {

       val partitionOffset = zkClient.readData[String](s"${topicDirs.consumerOffsetDir}/$i")

       val tp = TopicAndPartition(topic, i)

       //将不同 partition 对应的 offset 增加到 fromOffsets 中

       fromOffsets += (tp -> partitionOffset.toLong)

       println("@@@@@@ topic[" + topic + "] partition[" + i + "] offset[" + partitionOffset + "] @@@@@@")

       val messageHandler = (mmd: MessageAndMetadata[String, String]) =>  (mmd.topic,mmd.message())

       directKafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String,String)](ssc, kafkaParams, fromOffsets, messageHandler)

     }

   }else{

     directKafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, Set(topic))

   }

   /**

     *上边已经实现从zk上保存的值开始读取数据

     *下边就是数据处理后，再讲offset值写会到zk上

     */

   //用于保存当前offset范围

   var offsetRanges: Array[OffsetRange]  = Array.empty

   val directKafkaStream1 = directKafkaStream.transform { rdd =>

     //取出该批数据的offset值

     offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

     rdd

   }.map(_._2)

   directKafkaStream1.foreachRDD(rdd=>{

     //数据处理完毕后，将offset值更新到zk集群

     for (o <- offsetRanges) {

       val zkPath = s"${topicDirs.consumerOffsetDir}/${o.partition}"

       ZkUtils.updatePersistentPath(zkClient, zkPath, o.fromOffset.toString)

     }

     rdd.foreach(println)

   })

   ssc.start()

   ssc.awaitTermination()

 }

}

spark-streaming-连接kafka的两种方式的更多相关文章

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别
Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...
Spark Streaming 交互 Kafka的两种方式
一.Spark Streaming连Kafka(重点) 方式一:Receiver方式连:走磁盘使用High Level API(高阶API)实现Offset自动管理,灵活性差,处理数据时,如果某一时 ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
ADB连接手机的两种方式（usb数据线连接和wifi连接）
ADB(Android Debug Bridge)安卓测试桥,它是连接电脑开发端和安卓设备的桥梁,这个安卓设备可以是真实的安卓手机或者平板,也可以是虚拟的安卓模拟器, 这里介绍ADB连接手机的两种 ...
利用adb查看手机设备ip和连接手机的两种方式
电脑安装adb(查看菜鸟adb教程) [cmd]->输入adb devices (设置了path,否则需要 ./路径/adb devices)如图: 查看ip两种方法(可能有更多,目前我还没看到 ...
spark streaming集成kafka接收数据的方式
spark streaming是以batch的方式来消费,strom是准实时一条一条的消费.当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch).效率嘛,有 ...
网络协议 finally{ return问题注入问题 jdbc注册驱动问题 PreparedStatement 连接池目的 1.2.1DBCP连接池 C3P0连接池 MYSQL两种方式进行实物管理 JDBC事务 DBUtils事务 ThreadLocal 事务特性并发访问隔离级别
1.1.1 API详解:注册驱动 DriverManager.registerDriver(new com.mysql.jdbc.Driver());不建议使用原因有2个: >导致驱动被注册2 ...
spark application提交应用的两种方式
bin/spark-submit --help ... ... --deploy-mode DEPLOY_MODE Whether to launch the driver program loc ...
adb连接手机的两种方式
adb连接手机进行调试有两种方式,一种使用USB线,一种使用无线WiFi. 第一种使用USB线连接 1. 在手机上启用USB调试 2. CMD窗口输入adb devices,此时可以看到自己的设备 ...

随机推荐

解读 authentication.py
""" Provides various authentication policies. """ import base64 import ...
google colab 杂谈
需要一个GPU服务器,找到了免费的Google Colab 一.切换tensorflow版本: %tensorflow_version 1.x import tensorflow as tf tf._ ...
利用promise实现间隔1s打印1，2，3
利用promise结合数组的rduce方法 let arr = [1, 2, 3]; arr.reduce((pre, cur) => { return pre.then(() => { ...
什么时候使用transition?什么时候使用animation？
不同点: 1. 触发条件不同.transition通常和hover等事件配合使用,由事件触发.animation则和gif动态图差不多,立即播放. 2. 循环. animation可以设定循环次数. ...
HashMap相关类：Hashtable、LinkHashMap、TreeMap
前言很高兴遇见你~ 在深入剖析HashMap 文章中我从散列表的角度解析了HashMap,在深入解析ConcurrentHashMap:感受并发编程智慧解析了ConcurrentHashMap ...
git相关操作
git相关命令基本操作 git init git add xxx git commit -m "first commit" git tag -a V1.0 -m '我的标签' g ...
三、Jmeter发送请求
Jmeter的使用例子,发送一个get请求 1.打开Jmeter,选中Test Plan右键选择 "添加"--"线程(用户)"--"线程组" ...
RMAN迁移数据库（不改变文件目录）
1.目标库创建相应目录mkdir -p /u01/app/oracle/oradata/orclmkdir -p /u01/app/oracle/fast_recovery_area/ORCLmkdi ...
跨站点请求伪造 - SpringBoot配置CSRF过滤器
1. 跨站点请求伪造风险:可能会窃取或操纵客户会话和 cookie,它们可能用于模仿合法用户,从而使黑客能够以该用户身份查看或变更用户记录以及执行事务. 原因:应用程序使用的认证方法不充分. ...
java.lang.NoClassDefFoundError: org/I0Itec/zkclient/IZkStateListener
spark streaming 读 kafka 报错 java.lang.NoClassDefFoundError: org/I0Itec/zkclient/IZkStateListener java ...

spark-streaming-连接kafka的两种方式

spark-streaming-连接kafka的两种方式的更多相关文章

随机推荐

热门专题