1、下载spark-streaming-kafka插件包

由于Linux集群环境我使用spark是spark-2.1.1-bin-hadoop2.7，kafka是kafka_2.11-0.8.2.1，所以我下载的是spark-streaming-kafka-0-8_2.11-2.1.1.jar。

官网下载地址：http://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11/2.1.1

百度云下载地址：链接：http://pan.baidu.com/s/1o83DOHO 密码：2dgx

2、整合spark和kafka的jar包

2.1添加spark-streaming-kafka插件包

新建一个lib目录，首先把1步骤下载的spark-streaming-kafka-0-8_2.11-2.1.1.jar放进去

如图：

2.2添加spark依赖包

找到spark-2.1.1-bin-hadoop2.7/jars目录下所有的jar包，如图：

把spark-2.1.1-bin-hadoop2.7/jars目录下所有的jar包复制到上述新建的lib目录下，如图：

2.3添加kafka依赖包

找到kafka_2.11-0.8.2.1/libs目录下所有的jar包，如图：

把kafka_2.11-0.8.2.1/libs目录下所有的jar包复制到上述新建的lib目录下，如图：

3、新建测试工程

新建scala project，引用上述lib目录下的所有jar包；新建一个KafkaWordCount.scala用于测试：

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.Minutes
import org.apache.spark.SparkContext
import kafka.serializer.StringDecoder
object KafkaWordCount {
def main(args: Array[String]) {
val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[2]")
sparkConf.set("spark.port.maxRetries","128")
val ssc = new StreamingContext(sparkConf, Seconds(2))
ssc.checkpoint("hdfs://192.168.168.200:9000/checkpoint")
val zkQuorum = "192.168.168.200:2181"
val group = "test-group"
val topics = "test"
val numThreads = 1
val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1L))
.reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2)
wordCounts.print()
ssc.start()
ssc.awaitTermination()
}
}

如图：

启动spark集群和kafka集群，默认已经开启，默认kafka有test主题，这是默认要会的，在这里不在详述。

运行成功，如图：

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/I:/001sourceCode/020SparkStreaming/%e5%a4%a7%e6%95%b0%e6%8d%ae%e5%bc%80%e5%8f%91%e6%96%b9%e6%a1%88%e8%b5%84%e6%96%99%ef%bc%88%e5%a4%a9%e7%bb%b4%e5%b0%94%ef%bc%89/%e5%bc%80%e5%8f%91%e6%89%80%e9%9c%80jar%e5%8c%85/lib/slf4j-log4j12-1.7.6.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/I:/001sourceCode/020SparkStreaming/%e5%a4%a7%e6%95%b0%e6%8d%ae%e5%bc%80%e5%8f%91%e6%96%b9%e6%a1%88%e8%b5%84%e6%96%99%ef%bc%88%e5%a4%a9%e7%bb%b4%e5%b0%94%ef%bc%89/%e5%bc%80%e5%8f%91%e6%89%80%e9%9c%80jar%e5%8c%85/lib/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
-------------------------------------------
Time: 1499667652000 ms
-------------------------------------------
-------------------------------------------
Time: 1499667654000 ms
-------------------------------------------
-------------------------------------------
Time: 1499667656000 ms
-------------------------------------------

4、接收kafka的主题消息

启动一个kafka的生产者客户端：

[root@master ~]# kafka-console-producer.sh --broker-list 192.168.168.200:9092 --topic test
test success
spark
kafka

运行日志如下：

-------------------------------------------
Time: 1499667830000 ms
-------------------------------------------
-------------------------------------------
Time: 1499667832000 ms
-------------------------------------------
(test,1)
(success,1)
-------------------------------------------
Time: 1499667834000 ms
-------------------------------------------
(test,1)
(success,1)
-------------------------------------------
Time: 1499667836000 ms
-------------------------------------------
(test,1)
(spark,1)
(success,1)
-------------------------------------------
Time: 1499667838000 ms
-------------------------------------------
(kafka,1)
(test,1)
(spark,1)
(success,1)

5、sparkStreaming收不到kafka主题消息

如果出现kakfa的消费者客户端可以收到消息，而spark的消费者客户端收不到消息，后台也没有报错，那么要仔细检查kafka_home/conf目录下的server.properties，有没有配置：

############################# Socket Server Settings #############################
# The port the socket server listens on
port=9092
# Hostname the broker will bind to. If not set, the server will bind to all interfaces
host.name=192.168.168.200

一定要配置host.name，否则只能在kafk消费客户端收到消息，不能在sparkStreaming创建的topic消息客户端收到。

6、sbtassembly打包代码并上传到spark运行

可参考以下资料：

使用SBT构建Scala项目

本地开发spark代码上传spark集群服务并运行

SparkStreaming整合kafka编程的更多相关文章

基于Java+SparkStreaming整合kafka编程
一.下载依赖jar包具体可以参考:SparkStreaming整合kafka编程二.创建Java工程太简单,略. 三.实际例子 spark的安装包里面有好多例子,具体路径:spark-2.1.1 ...
大数据学习day32-----spark12-----1. sparkstreaming（1.1简介，1.2 sparkstreaming入门程序（统计单词个数，updateStageByKey的用法，1.3 SparkStreaming整合Kafka，1.4 SparkStreaming获取KafkaRDD的偏移量，并将偏移量写入kafka中）
1. Spark Streaming 1.1 简介(来源:spark官网介绍) Spark Streaming是Spark Core API的扩展,其是支持可伸缩.高吞吐量.容错的实时数据流处理.Sp ...
SparkStreaming 整合kafka Demo
这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示你得有zookeeper和kafka 我这里是3台节点主机架构图 ...
scala spark-streaming整合kafka （spark 2.3 kafka 0.10）
Maven组件如下: ) { System.err.println() } StreamingExamples.setStreamingLogLevels() )) ) { System.) } )) ...
大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计
1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic [root@mini3 kafka]# bin/kafka-console-producer. -- ...
Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）
Kafka0.8版本基于receiver接受器去接受kafka topic中的数据(并演示reduceByKeyAndWindow的使用) 依赖 <dependency> <grou ...
【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
图解SparkStreaming与Kafka的整合，这些细节大家要注意！
前言老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴.由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...

随机推荐

django面试题必问
1.谈谈你对http协议的认识. HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议.它可以使浏览器更加高效,使 ...
express框架以及配置项
以上命令会将 Express 框架安装在当前目录的 node_modules 目录中, node_modules 目录下会自动创建 express 目录.以下几个重要的模块是需要与 express 框 ...
交换机的默认网关（跨网段telnet）
实验要求:配置一台交换机,并配置默认网关,使不同网段的主机能够远程telnet连接到交换机拓扑图如下: 交换机配置: enable 进入特权模式 configure terminal 进入全局模式 ...
【leetcode】69-Sqrt(x)
problem Sqrt(x) code class Solution { public: int mySqrt(int x) {// x/b=b long long res = x;// while ...
s21day04 python笔记
s21day04 python笔记一.上周知识回顾及补充回顾补充编译型语言和解释性语言编译型:代码写完后,编译器将其变成成另外一个文件,然后交给计算机执行常见的编译型语言:C,C++,Ja ...
Bi-shoe and Phi-shoe
欧拉函数中的性质 Φ(p)=p-1,p为素数.所以这个题算是贪心+数论吧.每个Φ(p)=p-1:只要从p开始,找素数,那么一定有Φ(k)>=p-1;只有当p=k时,等号成立. #include ...
HDU 1686：Oulipo（KMP模板，子串出现次数）
Oulipo Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Sub ...
无用之flask
Oldboy s4 Flask Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收 ...
if-else练习
练习1 import java.util.Scanner; public class V{ public static void main(String[] args){ Scanner s=new ...
【UOJ#21】【UR#1】缩进优化
我好弱啊,什么题都做不出来QAQ 原题: 小O是一个热爱短代码的选手.在缩代码方面,他是一位身经百战的老手.世界各地的OJ上,很多题的最短解答排行榜都有他的身影.这令他感到十分愉悦. 最近,他突然发现 ...

SparkStreaming整合kafka编程