Spark Streaming与kafka整合实践之WordCount

本次实践使用kafka console作为消息的生产者，Spark Streaming作为消息的消费者，具体实践代码如下

首先启动kafka server

.\bin\windows\kafka-server-start.bat    .\config\server.properties

创建一个Topic

此处topic名以test为例

kafka-topics.bat  --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

创建一个producer

kafka-console-consumer.bat  --zookeeper localhost:2181  --topic test

创建一个Consumer

package spark.examples.streaming

import org.apache.spark.SparkConf

import org.apache.spark.streaming._

import org.apache.spark.streaming.kafka._

object SparkStreamingKakfaWordCount {

  def main(args: Array[String]) {

    println("Start to run SparkStreamingKakfaWordCount")

    val conf = new SparkConf().setMaster("local[3]")setAppName("SparkStreamingKakfaWordCount")

    val ssc = new StreamingContext(conf, Seconds(4))

    val topicMap=Map("test" -> 1)

//    zookeeper quorums server list

    val zkQuorum = "localhost:2181";

//   consumer group

    val group = "test-consumer-group01"

    //下面的处理方式假设topic test只有一个分区

   val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)

   lines.print()

  val words = lines.flatMap(_.split(" "))

  val wordCounts = words.map(x => (x,1L)).reduceByKey(_+_)

  wordCounts.print()

//  下面的处理方式假设topic test有2个分区，spark streaming 创建2个Input DStream，并行读2个分区

  //  Spark Streaming将RDD重新分区为4个RDD，进行并行处理，处理逻辑的并行度是读取并行的度的2倍

//    val streams = (1 to 2).map( _ => KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2))

//    将2个stream进行union

//    val partitions = ssc.union(streams).repartition(4).map("DataReceived: " + _)

//    partitions.print()

//    val partitions = ssc.union(streams).repartition(2)   //partition个数根据spark并行处理能力而定

//    val words = partitions.flatMap(_.split(" "))

//    val wordCounts = words.map(x => (x,1L)).reduceByKey(_+_)

//    wordCounts.print()

    ssc.start()   //Start the computation

    ssc.awaitTermination()   //Wait for the computation to termination

  }

}

Spark Streaming与kafka整合实践之WordCount的更多相关文章

【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
Spark Streaming和Kafka整合开发指南(二)
在本博客的<Spark Streaming和Kafka整合开发指南(一)>文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据.本文将介绍 ...
Spark Streaming和Kafka整合开发指南(一)
Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的.本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Spark Streaming和Kafka整合是如何保证数据零丢失
转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢 ...
demo1 spark streaming 接收 kafka 数据java代码WordCount示例
1. 首先启动zookeeper windows上的安装见zk 02之 Windows安装和使用zookeeper 启动后见: 2. 启动kafka windows的安装kafka见Windows上搭 ...
spark streaming 接收 kafka 数据java代码WordCount示例
http://www.cnblogs.com/gaopeng527/p/4959633.html
spark streaming集成kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...
spark streaming基于Kafka的开发
spark streaming使用Kafka数据源进行数据处理,本文侧重讲述实践使用. 一.基于receiver的方式在使用receiver的时候,如果receiver和partition分配不当, ...

随机推荐

Hibernate 环境搭建
Hibernate 工作流程 1.创建工程并导包 2.在src根目录下创建配置文件:hibernate.cfg.xml(也可以创建在src其他文件夹下,但是在后面的配置中,需要指明路径) <?x ...
泛型，迭代器，LinkedList<E>
1 <e>里面只能填类,不能用基本数据类型,不过integer 这样的的也行 2在模板类(泛型类中)class demo<e>由于不知道e是那个,所有通常都是重写大家都有的to ...
【USACO 1.2.1】挤牛奶
[问题描述] 三个农民每天清晨5点起床,然后去牛棚给3头牛挤奶.第一个农民在300时刻(从5点开始计时,秒为单位)给他的牛挤奶,一直到1000时刻.第二个农民在700时刻开始,在 1200时刻结束.第 ...
HexColorPicker 让选色变得更简单[for Mac]
开发iOS的筒子看过来,走过路过,一不小心就错过~ Xcode里的颜色选择器,不能让你随意制定十六进制的颜色,让选色变成了一种折磨,然而作为开发者和设计师又得经常要用到. 现在有了HexColorPi ...
按钮制作技巧（css精灵效果）-高级版
[转自己以前的文章] 无论用什么语言,大家敲程序的时候多多少少都会遇到做按钮的时候.今天分享一个之前学做按钮的技巧,有人叫做css精灵效果. 通常做按钮的思路都用附图中的第一种:两张图片交互的形式,让 ...
excel设置单元格不可编辑
把允许编辑的单元格选定,右键-设置单元格格式-保护,把锁定前的对钩去掉.再点工具-保护工作表.这样就可以只让你刚才设定的单元格允许编辑,其他不允许.
linux指令tips
1.调用命令使用应用名称免路径. 例如在路径 /usr/local/mobile/php538 建立了php应用,在调用php命令的时候,我们需要加路径访问如 /usr/local/mobile ...
centos 下搭建 php环境（2） mysql 安装
CentOS下的MySQL 5.1安装 01 1.下载源码包 wget http://mysql.llarian.net/Downloads/MySQL-5.1/mysql-5.1.63.tar. ...
css阴影
文字阴影:text-shadow:[颜色 x轴 y轴模糊半径],[颜色 x轴 y轴模糊半径]... 区域阴影:box-shadow:[颜色 x轴 y轴模糊半径],[颜色 x轴 y轴模糊半径]. ...
Android数据库升级、降级、创建(onCreate() onUpgrade() onDowngrade()）[4]
数据库版本升级对软件的管理操作. 我们手机经常会收到xxx软件升级什么的提醒,你的软件版本更新,同时你的数据库对应的版本也要相应的更新. 数据库版本更新需要主要的问题: 软件的1.0版本升级到1.1版 ...

Spark Streaming与kafka整合实践之WordCount

首先启动kafka server

创建一个Topic

创建一个producer

创建一个Consumer

Spark Streaming与kafka整合实践之WordCount的更多相关文章

随机推荐

热门专题