Spark-stream，kafka结合

先列参考文献：

Spark Streaming + Kafka Integration Guide (Kafka broker version 0.10.0 or higher)：http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html

kafka（Java Client端Producer API）：http://kafka.apache.org/documentation/#producerapi

版本：

spark：2.1.1
scala:2.11.12
kafka运行版本：2.3.0
spark-streaming-kafka-0-10_2.11：2.2.0

开发环境：

　　3台虚拟机部署kafka，域名分别为coo1、coo2、coo3，部署版本如上，zookeeper版本3.4.7

　　在kafka上创建topic：xzrz，replica为3，partition为4；

./kafka-topics.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --create --topic xzrz --replication-factor 3 --partitions 4

　　准备代码环境：

　　一个是Java端的kafka发送端：KafkaSender.java

　　另一个是scale端的spark-streaming-kafka消费端，KafkaStreaming.scala

kafka发送端：

　　maven配置：

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>kafkaTest</groupId>

    <artifactId>kafkaTest</artifactId>

    <version>1.0-SNAPSHOT</version>

<dependencies>

    <dependency>

        <groupId>org.apache.kafka</groupId>

        <artifactId>kafka-clients</artifactId>

        <version>2.3.0</version>

    </dependency>

    <dependency>

        <groupId>junit</groupId>

        <artifactId>junit</artifactId>

        <version>4.13-beta-2</version>

        <scope>compile</scope>

    </dependency>

</dependencies>

</project>

KafkaSender.java

 package gjm;

 import org.apache.kafka.clients.producer.KafkaProducer;

 import org.apache.kafka.clients.producer.Producer;

 import org.apache.kafka.clients.producer.ProducerConfig;

 import org.apache.kafka.clients.producer.ProducerRecord;

 import org.junit.Test;

 import java.util.Properties;

 import java.util.concurrent.ExecutionException;

 public class KafkaSender {

     @Test

     public void producer() throws InterruptedException, ExecutionException {

         Properties props = new Properties();

         props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer");

         props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

         props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "coo1:9092,coo2:9092,coo3:9092");

 //        props.put(ProducerConfig.BATCH_SIZE_CONFIG,"1024");

 //        props.put(ProducerConfig.BUFFER_MEMORY_CONFIG,"0");

         //配置kafka语义exacts once语义

         props.put("acks", "all");

         props.put("enable.idempotence", "true");

         Producer<Integer, String> kafkaProducer = new KafkaProducer<Integer, String>(props);

         for (int j = 0; j < 1; j++)

             for (int i = 0; i < 100; i++) {

                 ProducerRecord<Integer, String> message = new ProducerRecord<Integer, String>("xzrz", "{wo|2019-12-12|1|2|0|5}");

                 kafkaProducer.send(message);

             }

         //这个flush和close一定要写，类似于流操作

         //因为kafka自带betch和buffer，如果没有这两行代码，一是浪费资源，二是有可能消息没有发送到kafka中，依旧保留在本地betch中

         kafkaProducer.flush();

         kafkaProducer.close();

     }

 }

kafka消费端-->sparkstreaming-kafka-->KafkaStreaming.scala代码：

　　maven：

 <?xml version="1.0" encoding="UTF-8"?>

 <project xmlns="http://maven.apache.org/POM/4.0.0"

          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <modelVersion>4.0.0</modelVersion>

     <groupId>sparkMVN</groupId>

     <artifactId>sparkMVN</artifactId>

     <version>1.0-SNAPSHOT</version>

     <properties>

         <spark.version>2.1.1</spark.version>

         <hadoop.version>2.7.3</hadoop.version>

         <hbase.version>0.98.17-hadoop2</hbase.version>

     </properties>

 <dependencies>

     <dependency>

         <groupId>junit</groupId>

         <artifactId>junit</artifactId>

         <version>4.12</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-core_2.11</artifactId>

         <version>${spark.version}</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-sql_2.11</artifactId>

         <version>${spark.version}</version>

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-streaming_2.11</artifactId>

         <version>${spark.version}</version>

         <!--这行在local模式中，一定要注销，否则会导致找不到spark context类的异常-->

         <!--<scope>provided</scope>-->

     </dependency>

     <dependency>

         <groupId>org.apache.spark</groupId>

         <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>

         <version>2.2.0</version>

     </dependency>

     <!-- hadoop -->

     <dependency>

         <groupId>org.apache.hadoop</groupId>

         <artifactId>hadoop-client</artifactId>

         <version>${hadoop.version}</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hadoop</groupId>

         <artifactId>hadoop-common</artifactId>

         <version>${hadoop.version}</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hadoop</groupId>

         <artifactId>hadoop-hdfs</artifactId>

         <version>${hadoop.version}</version>

     </dependency>

     <!--hbase-->

     <dependency>

         <groupId>org.apache.hbase</groupId>

         <artifactId>hbase-client</artifactId>

         <version>${hbase.version}</version>

     </dependency>

     <dependency>

         <groupId>org.apache.hbase</groupId>

         <artifactId>hbase-server</artifactId>

         <version>${hbase.version}</version>

     </dependency>

 </dependencies>

 </project>

KafkaStreaming.scala代码：

 package gjm.sparkDemos

 import org.apache.kafka.common.serialization.StringDeserializer

 import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

 import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

 import org.apache.spark.streaming.kafka010.{CanCommitOffsets, HasOffsetRanges, KafkaUtils}

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 import org.apache.spark.{SparkConf, SparkContext}

 import org.slf4j.LoggerFactory

 object KafkaStreaming {

   def main(args: Array[String]): Unit = {

     val LOG = LoggerFactory.getLogger(KafkaStreaming.getClass)

     LOG.info("Streaming start----->")

     val conf = new SparkConf().setMaster("local[6]")//这里设置消费kafka的线程数为6，看看会有什么情况

       .setAppName("KafkaStreaming")

     val sc = new SparkContext(conf)

     val ssc = new StreamingContext(sc, Seconds(3))

     val topics = Array("xzrz")

     val kafkaParams = Map[String, Object](

       "bootstrap.servers" -> "coo1:9092,coo2:9092,coo3:9092",

       "key.deserializer" -> classOf[StringDeserializer],

       "value.deserializer" -> classOf[StringDeserializer],

       "group.id" -> "fwjkcx",

       "auto.offset.reset" -> "earliest",

       "enable.auto.commit" -> (false: java.lang.Boolean)

       //      "heartbeat.interval.ms" -> (90000: java.lang.Integer),

       //      "session.timeout.ms" -> (120000: java.lang.Integer),

       //      "group.max.session.timeout.ms" -> (120000: java.lang.Integer),

       //      "request.timeout.ms" -> (130000: java.lang.Integer),

       //      "fetch.max.wait.ms" -> (120000: java.lang.Integer)

     )

     val stream = KafkaUtils.createDirectStream[String, String](

       ssc,

       PreferConsistent,

       Subscribe[String, String](topics, kafkaParams)

     )

     LOG.info("Streaming had Created----->")

     LOG.info("Streaming Consuming msg----->")

     stream.foreachRDD { rdd =>

       val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

       rdd.foreachPartition(recordIt => {

         for (record <- recordIt) {

           LOG.info("Message recode info : Topics-->{},partition-->{}, checkNum-->{}, offset-->{}, value-->{}", record.topic(), record.partition().toString, record.checksum().toString, record.offset().toString, record.value())

         }

       })

       // some time later, after outputs have completed

       stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)

     }

     ssc.start()

     ssc.awaitTermination()

   }

 }

验证测试：

1、使用发送端发送100条消息；
2、启动kafka自带的consumer消费端，group id为test；

sh kafka-console-consumer.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --topic xzrz --from-beginning --group test

3、启动spark-stream-kafka，在代码中已经设置流的间隔时间为每3s一次；
4、使用kafka自带的group消费情况查询消费情况：

 ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group test

 ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group fwjkcx

结果：
1、首先是测试的test消费端：消费情况

[root@coo3 bin]# ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group test

GROUP           TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                     HOST            CLIENT-ID

test            xzrz            0          25              25              0               consumer-1-4adfdb85-45ef-40a5-9127-7bb6239e0e29 /192.168.0.217  consumer-1

test            xzrz            1          25              25              0               consumer-1-4adfdb85-45ef-40a5-9127-7bb6239e0e29 /192.168.0.217  consumer-1

test            xzrz            2          25              25              0               consumer-1-4adfdb85-45ef-40a5-9127-7bb6239e0e29 /192.168.0.217  consumer-1

test            xzrz            3          25              25              0               consumer-1-4adfdb85-45ef-40a5-9127-7bb6239e0e29 /192.168.0.217  consumer-1

观察发现，4个分区同一个消费者线程，一共消费了100条。
2、spark-streaming的消费端：消费情况

[root@coo3 bin]# ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group fwjkcx

GROUP           TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                     HOST            CLIENT-ID

fwjkcx          xzrz            0          25              25              0               consumer-1-0cca92be-5970-4030-abd1-b8552dea9718 /192.168.0.60   consumer-1

fwjkcx          xzrz            1          25              25              0               consumer-1-0cca92be-5970-4030-abd1-b8552dea9718 /192.168.0.60   consumer-1

fwjkcx          xzrz            2          25              25              0               consumer-1-0cca92be-5970-4030-abd1-b8552dea9718 /192.168.0.60   consumer-1

fwjkcx          xzrz            3          25              25              0               consumer-1-0cca92be-5970-4030-abd1-b8552dea9718 /192.168.0.60   consumer-1

观察发现，4个分区每个分区消费25条，符合正常认知
3、多增加一个实验，现在将spart-stream的local数量改为3，更改消费者组为fwjkcx01，观察消费情况

[root@coo3 bin]# ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group fwjkcx01

GROUP           TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                     HOST            CLIENT-ID

fwjkcx01        xzrz            0          25              25              0               consumer-1-03542086-c95d-41c2-b199-24a158708b65 /192.168.0.60   consumer-1

fwjkcx01        xzrz            1          25              25              0               consumer-1-03542086-c95d-41c2-b199-24a158708b65 /192.168.0.60   consumer-1

fwjkcx01        xzrz            2          25              25              0               consumer-1-03542086-c95d-41c2-b199-24a158708b65 /192.168.0.60   consumer-1

fwjkcx01        xzrz            3          25              25              0               consumer-1-03542086-c95d-41c2-b199-24a158708b65 /192.168.0.60   consumer-1

发现仍然是4个线程在消费，所以在local位置指定线程数量根本不生效。
4、这时候再发1000条消息，观察group：fwjkcx的消费情况

[root@coo3 bin]# ./kafka-consumer-groups.sh --bootstrap-server coo3:9092,coo2:9092,coo1:9092 --describe --group fwjkcx

GROUP           TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                     HOST            CLIENT-ID

fwjkcx          xzrz            0          275             275             0               consumer-1-fc238353-1b55-4efa-9c4f-54580ed81b0e /192.168.0.60   consumer-1

fwjkcx          xzrz            1          275             275             0               consumer-1-fc238353-1b55-4efa-9c4f-54580ed81b0e /192.168.0.60   consumer-1

fwjkcx          xzrz            2          275             275             0               consumer-1-fc238353-1b55-4efa-9c4f-54580ed81b0e /192.168.0.60   consumer-1

fwjkcx          xzrz            3          275             275             0               consumer-1-fc238353-1b55-4efa-9c4f-54580ed81b0e /192.168.0.60   consumer-1

一切正常。

Spark-stream，kafka结合的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
spark streaming kafka example
// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...
spark与kafka集成进行实时 nginx代理这种sdk埋点原生日志实时解析处理
日志格式202.108.16.254^A1546795482.600^A/cntv.gif?appId=3&areaId=8213&srcContId=2535575&area ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
进行Spark，Kafka针对Kerberos相关配置
1. 提交任务的命令 spark-submit \--class <classname> \--master yarn \--deploy-mode client \--executor- ...
本机spark 消费kafka失败（无法连接）
本机spark 消费kafka失败(无法连接) 终端也不报错就特么不消费: 但是用console的consumer 却可以经过各种改版本 ,测试配置,最后发现只要注释掉 kafka 配置se ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...

随机推荐

Scrapy 框架入门教程
Scrapy入门教程在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Ite ...
[A*算法]基于Unity实现A*算法（二）
写在前面:上一篇当时是非常简单的了解一下A*,昨天还有一些问题没解决,就暂时把自己查阅的文坛摘抄了过来(毕竟人家写的比我要好的多 :> ) 今天终于解决了,就又写了这一篇,正好我自己再梳理一遍, ...
zabbix 自动发现主机并关联模板
一.自动发现添加主机 1.利用agent自动发现主机 Configuration - Discovery -Create discovery rule 2.将自动发现的主机关联模板 Configura ...
poj3249 拓扑找最长路
Test for Job Time Limit: 5000MS Memory Limit: 65536K Total Submissions: 11230 Accepted: 2651 Des ...
python运用 - log信息提取（知识：遍历 | os ）
运用到的python知识点: excel相关:https://www.cnblogs.com/yaner2018/p/11269873.html 字典: python字典的几种方式: 1)key值遍历 ...
【学习】Python os模块常用方法记录
记录一些工作中常用到的用法 os.walk() 模块os中的walk()函数可以遍历文件夹下所有的文件. os.walk(top, topdown=Ture, onerror=None, follow ...
pytest跳过指定的测试或模块
参考Allure官方文档,pytest官方文档实现setup/teardown 1.运行带指定标记的测试 @pytest.mark.tags ,这里的tags可以自定义命令行执行:pytest - ...
MAC 下SFT环境搭建及使用
基本环境的搭建就不说了,网上一搜就是一堆记录下正常的使用过程,主机-服务器是MAC机,从机-Windows机子 1.STF服务启动(挂后台的服务,启动后输入 exit退出进程即可) 后台启动DB:n ...
[编辑排版]小技巧---markdown 转 richText
Markdown 使用markdown,可以方便地编辑富文本,VSCode自带了对markdown的支持,编辑完成后可点击右上角预览,实时查看效果. 在github上有给账号,就可以使用GithubP ...
Java中的集合（七）双列集合顶层接口------Map接口架构
Java中的集合(七)双列集合顶层接口------Map接口一.Map接口的简介通过List接口,我们知道List接口下的集合是单列集合,数据存储是单列的结构.Map接口下是一个键值对(key-v ...