Spark Streaming + Kafka 整合向导之createDirectStream

启动zk: zkServer.sh start

启动kafka：kafka-server-start.sh $KAFKA_HOME/config/server.properties

创建一个topic:kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 1 --partitions 1 --topic test

启动一个生产者：kafka-console-producer.sh --broker-list node1:9092 --topic test

运行代码测试：

package com.lin.spark

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.kafka010._

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

/**

  * Created by Administrator on 2019/6/7.

  */

object Halo {

  def main(args: Array[String]): Unit = {

    val kafkaParams = Map[String, Object](

      "bootstrap.servers" -> "node1:9092",

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> "use_a_separate_group_id_for_each_stream",

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    val conf = new SparkConf().setAppName("Halo").setMaster("local[2]")

    val ssc = new StreamingContext(conf,Seconds(5))

    val topics = Array("test")

    val stream = KafkaUtils.createDirectStream[String, String](

      ssc,

      PreferConsistent,

      Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd => {

      val offsetRange = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      val maped: RDD[(String, String)] = rdd.map(record => (record.key,record.value))

      //计算逻辑

      maped.foreach(println)

      //循环输出

      for(o <- offsetRange){

        println(s"${o.topic}  ${o.partition} ${o.fromOffset} ${o.untilOffset}")

      }

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

参考：

http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html

https://cloud.tencent.com/developer/article/1355430

Spark Streaming + Kafka 整合向导之createDirectStream的更多相关文章

Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
Zookeeper+Kafka+Spark streaming单机整合开发
环境准备: ubuntu 开发环境: jdk 1.8 scala:2.11.0 spark 2.0 zookeeper 3.4.6 kafka 2.12-0.10.2.0 开始整合: 1 zooke ...
spark第十篇：Spark与Kafka整合
spark与kafka整合需要引入spark-streaming-kafka.jar,该jar根据kafka版本有2个分支,分别是spark-streaming-kafka-0-8和spark-str ...
spark streaming kafka example
// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...
Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...
4、spark streaming+kafka
一.Receiver模式 1. receiver模式原理图在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据.数据会被持久化 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

SQL 一次插入多次数据
数据插入 INSERT INTO 表名称 VALUES (值1, 值2,....) 指定所要插入数据的列 INSERT INTO table_name (列1, 列2,...) VALUES (值1, ...
spring(三)：spring中BeanPostProcessor的使用
spring中实现BeanPostProcessor的后置处理器 ApplicationContextAwareProcessor 进入该实现类内部可以看到:该类帮我们组建IOC容器,判断我们的be ...
pwd - 显示出当前/活动目录的名称
总览 (SYNOPSIS) pwd [OPTION] 描述 (DESCRIPTION) 显示出完整的当前活动目录名称. --help 显示帮助信息, 然后退出 --version 显示 ...
Git命令<转载 https://www.cnblogs.com/cspku/articles/Git_cmds.html>
查看.添加.提交.删除.找回,重置修改文件 git help <command> # 显示command的help git show # 显示某次提交的内容 git show $id gi ...
mongodb 稀疏索引
稀疏索引(或者称间隙索引)就是只包含有索引字段的文档的条目,即使索引字段包含一个空值.也就是说间隙索引可以跳过那些索引键不存在的文档.因为他并非包含所有的文档,因此称为稀疏索引.与之相对的非稀疏索引或 ...
2、pycharm中设置pytest为默认运行
1.打开File-setting 2.打开Tools-Python Integrated Tools 3.找到Default test runner选项,在下拉框中选择py.test 4.点Apply ...
Delphi Win API 函数 MulDiv
Delphi Win API 函数 MulDiv 原型:function MulDiv(nNumber, nNumerator, nDenominator: Integer): Integer; st ...
git 往远端Dev推送
python学习笔记（一）python简介和基础
1.什么是python? python是一种面向对象的,解释型的计算机语言,它的特点是语法简介,优雅,简单易学.1989年诞生,Guido(龟叔)开发. 编译型语言:代码在编译之后,编译成2进制的文件 ...
spring-boot整合mongodb的案例
1.简介 MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关系数据库和非关系数据库之间的产品 ...

Spark Streaming + Kafka 整合向导之createDirectStream

Spark Streaming + Kafka 整合向导之createDirectStream的更多相关文章

随机推荐

热门专题