推荐系统的在线部分往往使用spark-streaming实现,这是一个很重要的环节。

在线流程的实时数据一般是从kafka获取消息到spark streaming

spark连接kafka两种方式在面试中会经常被问到,说明这是重点,下面为大家介绍一下这两种方法:

第一种方式:Receiver模式 又称kafka高级api模式

效果:SparkStreaming中的Receivers,恰好kafka有发布、订阅,然而:这种方式企业不常用,说明有bug,不符合企业需求。因为:接收到的数据存储在Executor,会出现数据漏处理或者多处理状况。

简单的理解就是kafka把消息全部封装好,提供给spark去调用,本来kafka的消息分布在不同的partition上面,相当于做了一步数据合并,在发送给spark,故spark可以设置executor个数去消费这部分数据,效率相对慢一些。

代码实例:

object ReceiverKafkaWordCount {
Logger.getLogger("org").setLevel(Level.ERROR)
def main(args: Array[String]): Unit = {
val Array(brokers, topics) = Array(Conf.KAFKA_BROKER, Conf.TEST_TOPIC)
// Create context with 2 second batch interval
val conf = new SparkConf()
.setMaster("local")
.setAppName("OnlineStreamHobby") //设置本程序名称
// .set("auto.offset.reset","smallest")
val ssc = new StreamingContext(conf, Seconds(2))
// 从kafka取数据
val kafkaParams: Map[String, String] = Map[String, String](
// "auto.offset.reset" -> "smallest", //自动将偏移重置为最早的偏移
"zookeeper.connect" -> Conf.ZK_HOST,
// "bootstrap.servers" -> Common.KAFKA_BROKER_LIST,
"group.id" -> "test"
)
val numThreads = 1
val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
val fact_streaming = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_2).map(_._2)
// fact_streaming.print()
val words = fact_streaming.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
wordCounts.print()
ssc.checkpoint(".")
//启动spark并设置执行时间
ssc.start()
ssc.awaitTermination()
}
}

第二种方式:Direct模式 又称kafka低级API模式

效果:每次到topic的每个partition依据偏移量进行获取数据,拉取数据以后进行处理,可以实现高可用

解释:在spark 1.3中引入了这种新的无接收器“直接”方法,以确保更强大的端到端保证。这种方法不是使用接收器来接收数据,而是定期查询kafka在每个topic+分partition中的最新偏移量,并相应地定义要在每个批次中处理的偏移量范围。当处理数据的作业启动时,Kafka简单的客户API用于读取Kafka中定义的偏移范围(类似于从文件系统读取文件)。请注意,此功能在Spark 1.3中为Scala和Java API引入

简单的理解就是spark直接从kafka底层中的partition直接获取消息,相对于Receiver模式少了一步,效率更快。但是这样一来spark中的executor的工作的个数就为kafka中的partition一致,设置再多的executor都不工作,同时偏移量也需要自己维护。

代码示例:

object DirectTest {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("kafka direct test").setMaster("local")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc,Seconds(10))
//kafka基本参数,yourBrokers你的brokers集群
val kafkaParams = Map("metadata.broker.list" -> Conf.KAFKA_BROKER)
val topic = "test"
val customGroup = "testGroup"
//新建一个zkClient,zk是你的zk集群,和broker一样,也是"IP:端口,IP端口..."
/**
*如果你使用val zkClient = new ZKClient(zk)新建zk客户端,
*在后边读取分区信息的文件数据时可能会出现错误
*org.I0Itec.zkclient.exception.ZkMarshallingError:
* java.io.StreamCorruptedException: invalid stream header: 7B226A6D at org.I0Itec.zkclient.serialize.SerializableSerializer.deserialize(SerializableSerializer.java:37) at org.I0Itec.zkclient.ZkClient.derializable(ZkClient.java:740) ..
*那么使用我的这个新建方法就可以了,指定读取数据时的序列化方式
**/
val zkClient = new ZkClient(Conf.ZK_HOST, Integer.MAX_VALUE, 10000,ZKStringSerializer)
//获取zk下该消费者的offset存储路径,一般该路径是/consumers/test_spark_streaming_group/offsets/topic_name
val topicDirs = new ZKGroupTopicDirs(customGroup, topic)
val children = zkClient.countChildren(s"${topicDirs.consumerOffsetDir}")
//设置第一批数据读取的起始位置
var fromOffsets: Map[TopicAndPartition, Long] = Map()
var directKafkaStream : InputDStream[(String,String)] = null
//如果zk下有该消费者的offset信息,则从zk下保存的offset位置开始读取,否则从最新的数据开始读取(受auto.offset.reset设置影响,此处默认)
if (children > 0) {
//将zk下保存的该主题该消费者的每个分区的offset值添加到fromOffsets中
for (i <- 0 until children) {
val partitionOffset = zkClient.readData[String](s"${topicDirs.consumerOffsetDir}/$i")
val tp = TopicAndPartition(topic, i)
//将不同 partition 对应的 offset 增加到 fromOffsets 中
fromOffsets += (tp -> partitionOffset.toLong)
println("@@@@@@ topic[" + topic + "] partition[" + i + "] offset[" + partitionOffset + "] @@@@@@")
val messageHandler = (mmd: MessageAndMetadata[String, String]) => (mmd.topic,mmd.message())
directKafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, (String,String)](ssc, kafkaParams, fromOffsets, messageHandler)
}
}else{
directKafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, Set(topic))
}
/**
*上边已经实现从zk上保存的值开始读取数据
*下边就是数据处理后,再讲offset值写会到zk上
*/
//用于保存当前offset范围
var offsetRanges: Array[OffsetRange] = Array.empty
val directKafkaStream1 = directKafkaStream.transform { rdd =>
//取出该批数据的offset值
offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
rdd
}.map(_._2)
directKafkaStream1.foreachRDD(rdd=>{
//数据处理完毕后,将offset值更新到zk集群
for (o <- offsetRanges) {
val zkPath = s"${topicDirs.consumerOffsetDir}/${o.partition}"
ZkUtils.updatePersistentPath(zkClient, zkPath, o.fromOffset.toString)
}
rdd.foreach(println)
})
ssc.start()
ssc.awaitTermination()
}
}

spark-streaming-连接kafka的两种方式的更多相关文章

  1. Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

    Receiver是使用Kafka的高层次Consumer API来实现的. Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming ...

  2. Spark Streaming 交互 Kafka的两种方式

    一.Spark Streaming连Kafka(重点) 方式一:Receiver方式连:走磁盘 使用High Level API(高阶API)实现Offset自动管理,灵活性差,处理数据时,如果某一时 ...

  3. sparkStreaming读取kafka的两种方式

    概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...

  4. ADB连接手机的两种方式(usb数据线连接和wifi连接)

    ADB(Android Debug Bridge)安卓测试桥,它是连接电脑开发端和安卓设备的桥梁,这个安卓设备可以是真实的安卓手机或者平板,也可以是虚拟的安卓模拟器,   这里介绍ADB连接手机的两种 ...

  5. 利用adb查看手机设备ip和连接手机的两种方式

    电脑安装adb(查看菜鸟adb教程) [cmd]->输入adb devices (设置了path,否则需要 ./路径/adb devices)如图: 查看ip两种方法(可能有更多,目前我还没看到 ...

  6. spark streaming集成kafka接收数据的方式

    spark streaming是以batch的方式来消费,strom是准实时一条一条的消费.当然也可以使用trident和tick的方式来实现batch消费(官方叫做mini batch).效率嘛,有 ...

  7. 网络协议 finally{ return问题 注入问题 jdbc注册驱动问题 PreparedStatement 连接池目的 1.2.1DBCP连接池 C3P0连接池 MYSQL两种方式进行实物管理 JDBC事务 DBUtils事务 ThreadLocal 事务特性 并发访问 隔离级别

    1.1.1 API详解:注册驱动 DriverManager.registerDriver(new com.mysql.jdbc.Driver());不建议使用 原因有2个: >导致驱动被注册2 ...

  8. spark application提交应用的两种方式

    bin/spark-submit --help ... ... --deploy-mode DEPLOY_MODE   Whether to launch the driver program loc ...

  9. adb连接手机的两种方式

    adb连接手机进行调试有两种方式,一种使用USB线,一种使用无线WiFi. 第一种  使用USB线连接 1. 在手机上启用USB调试 2. CMD窗口输入adb devices,此时可以看到自己的设备 ...

随机推荐

  1. Model/View开发小结

    老猿Python博文目录 专栏:使用PyQt开发图形界面Python应用 老猿Python博客地址 Model/View开发是PyQt和Qt中重要的框架之一,老猿认为另外两个就是信号槽机制和事件机制, ...

  2. PyQt(Python+Qt)学习随笔:QTreeView树形视图的uniformRowHeights属性

    老猿Python博文目录 专栏:使用PyQt开发图形界面Python应用 老猿Python博客地址 uniformRowHeights属性用于控制视图中所有数据项是否保持相同高度,所有高度都与视图中第 ...

  3. SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器

    SZhe_Scan碎遮:一款基于Flask框架的web漏洞扫描神器 天幕如遮,唯我一刀可碎千里华盖,纵横四海而无阻,是谓碎遮 --取自<有匪> 写在前面 这段时间很多时间都在忙着编写该项目 ...

  4. FirstCode异常 此引用关系将导致不允许的周期性引用

    FirstCode异常 此引用关系将导致不允许的周期性引用 一般由多表里的外键互相引用引起. 解决方法: 1.去掉对应数据类里的外键对应的对象属性. 2.去掉该外键. [Table("TAs ...

  5. Codeforces Edu Round 58 A-E

    A. Minimum Integer 如果\(d < l\),则\(d\)满足条件 否则,输出\(d * (r / d + 1)\)即可. #include <cstdio> #in ...

  6. P6772 [NOI2020]美食家

    题目大意 给你一个 \(n\) 个点,\(m\) 条边的有向图,每条边有一个权值 \(w_i\) ,每个节点有一个权值 \(a_i\) . 你从节点 \(1\) 出发,每经过一个节点就可以获得该点的权 ...

  7. Vue--子组件互相传值,子组件来回传值,传值反复横跳

    Vue--子组件传值,子组件来回传值,子组件传值反复横跳 我不不仅要子组件之间直接传值,我还要传过去再传回来,传回来再传过去,子组件直接反复横跳 解决问题 给组件传值,并不知道改值的校验结果 同一个组 ...

  8. 教你30秒解开手机的密码 适用于高通CPU

    教程简介 先将手机进入9008模式.进入方法请自己百度. 进入9008方法如下:   先将手机关机,然后按住音量加和音量减不松手. 使用教程: 将数据线拆入电脑.会出现一个端口   出现端口后可以松开 ...

  9. C#数据结构-线索化二叉树

    为什么线索化二叉树? 对于二叉树的遍历,我们知道每个节点的前驱与后继,但是这是建立在遍历的基础上,否则我们只知道后续的左右子树.现在我们充分利用二叉树左右子树的空节点,分别指向当前节点的前驱.后继,便 ...

  10. 2020-2021-1 20209307《Linux内核原理与分析》第七周作业

    这个作业属于哪个课程 <2020-2021-1Linux内核原理与分析)> 这个作业要求在哪里 <2020-2021-1Linux内核原理与分析第七周作业> 这个作业的目标 & ...