sparkStreaming 读kafka的数据

目标：sparkStreaming每2s中读取一次kafka中的数据，进行单词计数。

topic:topic1

broker list:192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092

1、首先往一个topic中实时生产数据。

　　代码如下：代码功能：每秒向topic1发送一条消息，一条消息里包含4个单词，单词之间用空格隔开。

 package kafkaProducer

 import java.util.HashMap

 import org.apache.kafka.clients.producer._

 object KafkaProducer {

 def main(args: Array[String]) {

   val topic="topic1"

   val brokers="192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092"

   val messagesPerSec=1 //每秒发送几条信息

   val wordsPerMessage =4 //一条信息包括多少个单词

   // Zookeeper connection properties

     val props = new HashMap[String, Object]()

     props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)

     props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,

       "org.apache.kafka.common.serialization.StringSerializer")

     props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,

       "org.apache.kafka.common.serialization.StringSerializer")

     val producer = new KafkaProducer[String, String](props)

     // Send some messages

      while(true) {

       (1 to messagesPerSec.toInt).foreach { messageNum =>

         val str = (1 to wordsPerMessage.toInt).map(x => scala.util.Random.nextInt(10).toString)

           .mkString(" ")

         val message = new ProducerRecord[String, String](topic, null, str)

         producer.send(message)

         println(message)

       }

       Thread.sleep(1000)

     }

   }

 }

打包运行命令：hadoop jar jar包（注意jar包是可运行的jar包）

消费者消费命令： ./kafka-console-consumer.sh --zookeeper zk01:2181,zk02:2181 --topic topic1 --from-beginning

可以正常消费。

2、编写SparkStreaming代码读kafka中的数据，每2s读一次

　　代码如下：

 package kafkaSparkStream

 import org.apache.spark.SparkConf

 import org.apache.spark.streaming.StreamingContext

 import org.apache.spark.streaming.Seconds

 import org.apache.spark.streaming.kafka.KafkaUtils

 import kafka.serializer.StringDecoder

 /**

  * sparkStreaming读取kafka中topic的数据

  */

 object KafkaToSpark {

 def main(args: Array[String]) {

   if (args.length<2) {

   System.err.println("Usage: <brokers> <topics>");

   System.exit(1)

   }

   val Array(brokers,topics)=args

   //2s从kafka中读取一次

   val conf=new SparkConf().setAppName("KafkaToSpark");

   val scc=new StreamingContext(conf,Seconds(2))

   // Create direct kafka stream with brokers and topics

   val topicSet=topics.split(",").toSet

   val kafkaParams=Map[String,String]("metadata.broker.list"->brokers)

   //获取信息

   val messages=KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](

       scc,kafkaParams,topicSet)

   // Get the lines, split them into words, count the words and print

  val lines= messages.map(_._2)

  val words=lines.flatMap(_.split(" "))

  val wordCouts=words.map(x =>(x,1L)).reduceByKey(_+_)

  wordCouts.print

  //开启计算

  scc.start()

  scc.awaitTermination()

 }

 }

打包运行命令：./spark-submit --class kafkaSparkStream.KafkaToSpark --master yarn-client /home/hadoop/sparkJar/kafkaToSpark.jar 192.168.1.126:9092,192.168.1.127:9092,192.168.1.128:9092 topic1

运行成功！

sparkStreaming 读kafka的数据的更多相关文章

SparkStreaming消费kafka中数据的方式
有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...
spark-streaming读kafka数据到hive遇到的问题
在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用 ...
Spark Streaming使用Kafka保证数据零丢失
来自: https://community.qingcloud.com/topic/344/spark-streaming使用kafka保证数据零丢失 spark streaming从1.2开始提供了 ...
大数据学习day32-----spark12-----1. sparkstreaming（1.1简介，1.2 sparkstreaming入门程序（统计单词个数，updateStageByKey的用法，1.3 SparkStreaming整合Kafka，1.4 SparkStreaming获取KafkaRDD的偏移量，并将偏移量写入kafka中）
1. Spark Streaming 1.1 简介(来源:spark官网介绍) Spark Streaming是Spark Core API的扩展,其是支持可伸缩.高吞吐量.容错的实时数据流处理.Sp ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
SparkStreaming获取kafka数据的两种方式：Receiver与Direct
简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
SparkStreaming接收Kafka数据的两种方式 SparkStreaming接收数据原理一.SparkStreaming + Kafka Receiver模式二.SparkStreami ...
图解SparkStreaming与Kafka的整合，这些细节大家要注意！
前言老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴.由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! ...
读Kafka Consumer源码
最近一直在关注阿里的一个开源项目:OpenMessaging OpenMessaging, which includes the establishment of industry guideline ...

随机推荐

解决找不到mkfs.ubifs命令
解决找不到mkfs.ubifs命令 ubuntu 版本:14.04 sudo apt-get update sudo apt-get install mtd-utils sudo apt-get in ...
【转载】使用Class.getResource和ClassLoader.getResource方法获取文件路径
自从转投Java阵营后,一直发下Java程序的路径读取异常麻烦,因此查阅了比较多的版本内容,整合了一份自己的学习笔记.主要使用Class及通过ClassLoader来动态获取文件路径. 查阅链接如下: ...
ASP.NET Core 2.1 中的 HttpClientFactory (Part 1) HttpClientFactory介绍
原文:https://www.stevejgordon.co.uk/introduction-to-httpclientfactory-aspnetcore 发表于:2018年1月 ASP.NET ...
IServiceBehavior IContractBehavior IEndpointBehavior IOperationBehavior
using System; using System.Collections.ObjectModel; using System.Reflection; using System.ServiceMod ...
Access-Control-Max-Age
app.UseCors(builder => builder .AllowAnyOrigin() .AllowAnyMethod() .AllowAnyHeader() .AllowCreden ...
【转载】Sqlserver根据生日计算年龄
在Sqlserver中,可以根据存储的出生年月字段计算出该用户的当前年龄信息,主要使用到DateDiff函数来实现.DateDiff函数的格式为DATEDIFF(datepart,startdate, ...
这个一个对ES6多个异步处理的并发继发思想的总结和理解
1.首先我们需要理解的是js中for循环.forEach循环.map循环的一些差异性,直接说了为后面说到的提供一些依据 1.1 for循环最基本,也是最容易理解的. 1.2 forEach和map用法 ...
day01-02
iOS 毛玻璃效果的实现方法
iOS开发中有的时候需要将图片设置模糊,来实现特定的效果获取更好的用户体验, iOS7之后半透明模糊效果得到大范围使用的比较大,现在也可以看到很多应用局部用到了图片模糊效果,可以通过高斯模糊和毛玻璃效 ...
直接插入排序算法（java）
直接插入排序是将未排序的数据插入至已排好序序列的合适位置. 具体流程如下: 1.首先比较数组的前两个数据,并排序: 2.比较第三个元素与前两个排好序的数据,并将第三个元素放入适当的位置: 3.比较第四 ...

sparkStreaming 读kafka的数据

sparkStreaming 读kafka的数据的更多相关文章

随机推荐

热门专题