Spark Streaming 实现读取Kafka 生产数据

在kafka 目录下执行生产消息命令：

　　./kafka-console-producer --broker-list nodexx:9092 --topic 201609

在spark bin 目录下执行

./run-example streaming.JavaDirectKafkaWordCount nodexx:9092, nodexx:9092 201609

import java.util.HashMap;

import java.util.HashSet;

import java.util.Arrays;

import java.util.regex.Pattern;

import scala.Tuple2;

import com.google.common.collect.Lists;

import kafka.serializer.StringDecoder;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.function.*;

import org.apache.spark.streaming.api.java.*;

import org.apache.spark.streaming.kafka.KafkaUtils;

import org.apache.spark.streaming.Durations;

/**

 * Consumes messages from one or more topics in Kafka and does wordcount.

 * Usage: JavaDirectKafkaWordCount <brokers> <topics>

 *   <brokers> is a list of one or more Kafka brokers

 *   <topics> is a list of one or more kafka topics to consume from

 *

 * Example:

 *    $ bin/run-example streaming.JavaDirectKafkaWordCount broker1-host:port,broker2-host:port topic1,topic2

 */

public final class JavaDirectKafkaWordCount {

  private static final Pattern SPACE = Pattern.compile(" ");

  public static void main(String[] args) {

    if (args.length < 2) {

      System.err.println("Usage: JavaDirectKafkaWordCount <brokers> <topics>\n" +

          "  <brokers> is a list of one or more Kafka brokers\n" +

          "  <topics> is a list of one or more kafka topics to consume from\n\n");

      System.exit(1);

    }

    StreamingExamples.setStreamingLogLevels();

    String brokers = args[0];

    String topics = args[1];

    // Create context with a 2 seconds batch interval

    SparkConf sparkConf = new SparkConf().setAppName("JavaDirectKafkaWordCount");

      JavaStreamingContext jssc;

     jssc = new (sparkConf, Durations.seconds(2));

    HashSet<String> topicsSet = new HashSet<String>(Arrays.asList(topics.split(",")));

    HashMap<String, String> kafkaParams = new HashMap<String, String>();

    kafkaParams.put("metadata.broker.list", brokers);

    // Create direct kafka stream with brokers and topics

    JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream(

        jssc,

        String.class,

        String.class,

        StringDecoder.class,

        StringDecoder.class,

        kafkaParams,

        topicsSet

    );

    // Get the lines, split them into words, count the words and print

    JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {

      @Override

      public String call(Tuple2<String, String> tuple2) {

        return tuple2._2();

      }

    });

    JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

      @Override

      public Iterable<String> call(String x) {

        return Lists.newArrayList(SPACE.split(x));

      }

    });

    JavaPairDStream<String, Integer> wordCounts = words.mapToPair(

      new PairFunction<String, String, Integer>() {

        @Override

        public Tuple2<String, Integer> call(String s) {

          return new Tuple2<String, Integer>(s, 1);

        }

      }).reduceByKey(

        new Function2<Integer, Integer, Integer>() {

        @Override

        public Integer call(Integer i1, Integer i2) {

          return i1 + i2;

        }

      });

    wordCounts.print();

    // Start the computation

    jssc.start();

    jssc.awaitTermination();

  }

}

Spark Streaming 实现读取Kafka 生产数据的更多相关文章

spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
Spark Streaming的接收KAFKA的数据
https://github.com/lw-lin/CoolplaySpark/blob/master/Spark%20Streaming%20%E6%BA%90%E7%A0%81%E8%A7%A3% ...
Spark Streaming整合logstash + Kafka wordCount
1.安装logstash,直接解压即可测试logstash是否可以正常运行 bin/logstash -e 'input { stdin { } } output { stdout {codec = ...
Flink与Spark Streaming在与kafka结合的区别！
本文主要是想聊聊flink与kafka结合.当然,单纯的介绍flink与kafka的结合呢,比较单调,也没有可对比性,所以的准备顺便帮大家简单回顾一下Spark Streaming与kafka的结合. ...
Spark Streaming整合Flume + Kafka wordCount
flume配置文件 flume_to_kafka.conf a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = sp ...
Exactly-once Spark Streaming from Apache Kafka
这篇文章我已经看过两遍了.收获颇多,抽个时间翻译下,先贴个原文链接吧.也给自己留个任务 http://blog.cloudera.com/blog/2015/03/exactly-once-spark ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...

随机推荐

JS获取request字符串
function getQueryString(name) { var reg = new RegExp("(^|&)" + name + "=([^&] ...
我的美国（北美）计算机CS实习面试经验分享
过去的一年多里,参加了一些面试,虽然面过的公司不多,但都从头一直走到尾.毕竟自己也是花了大量的时间和精力在这一场场的面试里.所以,就絮叨下自己的一些经验,希望能给在美国找实习找工作的同学们提供一点点帮 ...
dojo事件
dojo.connect 和 dojo.disconnect /*建立连接*/ dojo.connect(/*Object|null*/ obj, /*String*/ event, /*Object ...
URI--http://zh.wikipedia.org/wiki/%E7%BB%9F%E4%B8%80%E8%B5%84%E6%BA%90%E6%A0%87%E5%BF%97%E7%AC%A6
维基百科,自由的百科全书在电脑术语中,统一资源标识符(Uniform Resource Identifier,或URI)是一个用于标识某一互联网资源名称的字符串. 该种标识允许用户对网络中( ...
BullseyeCoverage：代码覆盖率。
1,安装和使用步骤阅读READER文档.并安装(非常简单,README中有详细指令说明) 配置环境:同样可以阅读相关文档. 增加PATH环境变量.需要注意,此路径需要增加在PATH的最前列.即< ...
如何在Eclipse中查看Android API源码以及support包源码
http://my.eoe.cn/futurexiong/archive/181.html 开发第三方Android应用的,大多数人应该还是Eclipse结合ADT来开发.那么大多数时候我们可能希望点 ...
android sdk manager无法更新
问题描述: Android SDK Manager 无法下载更新,或者更新速度超慢,或者待安装包列表不显示. 解决方法: 第一,我们先修改下hosts文件.该文件的位置在系统盘 ...
命名空间 - PHP手册笔记
概述命名空间是一种封装事物的方法.在很多地方都可以见到这种抽象概念,比如在操作系统中,目录用来将相关文件分组,对于目录中的文件来说,目录就扮演了命名空间的角色.这个原理应用到程序设计领域就是命名空间 ...
SQL Server 找出值得优化的语句
方法 1. sys.dm_exec_qurey_stats 返回 SQL Server 中缓存查询计划的聚合性能统计信息. 缓存计划中的每个查询语句在该视图中对应一行, 并且行的生存期与计划本身相关联 ...
Unix/Linux环境C编程入门教程(30) 字符串操作那些事儿
函数介绍 rindex(查找字符串中最后一个出现的指定字符) 相关函数 index,memchr,strchr,strrchr 表头文件 #include<string.h> 定义函数 c ...

Spark Streaming 实现读取Kafka 生产数据

Spark Streaming 实现读取Kafka 生产数据的更多相关文章

随机推荐

热门专题