Spark Streaming教程

废话不说，先来个示例，有个感性认识再介绍。

这个示例来自spark自带的example，基本步骤如下：

（1）使用以下命令输入流消息：

$ nc -lk 9999

（2）在一个新的终端中运行NetworkWordCount，统计上面的词语数量并输出：

$ bin/run-example streaming.NetworkWordCount localhost 9999

（3）在第一步创建的输入流程中敲入一些内容，在第二步创建的终端中会看到统计结果，如：

第一个终端输入的内容：

hello world again

第二个端口的输出

-------------------------------------------
Time: 1436758706000 ms
-------------------------------------------
(again,1)
(hello,1)
(world,1)

简单解释一下，上面的示例通过手工敲入内容，并传给spark streaming统计单词数量，然后将结果打印出来。

附上代码：

package org.apache.spark.examples.streaming

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.storage.StorageLevel

/**

 * Counts words in UTF8 encoded, '\n' delimited text received from the network every second.

 *

 * Usage: NetworkWordCount <hostname> <port>

 * <hostname> and <port> describe the TCP server that Spark Streaming would connect to receive data.

 *

 * To run this on your local machine, you need to first run a Netcat server

 *    `$ nc -lk 9999`

 * and then run the example

 *    `$ bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999`

 */

object NetworkWordCount {

  def main(args: Array[String]) {

    if (args.length < 2) {

      System.err.println("Usage: NetworkWordCount <hostname> <port>")

      System.exit(1)

    }

    StreamingExamples.setStreamingLogLevels()

    // Create the context with a 1 second batch size

    val sparkConf = new SparkConf().setAppName("NetworkWordCount")

    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the

    // words in input stream of \n delimited text (eg. generated by 'nc')

    // Note that no duplication in storage level only for running locally.

    // Replication necessary in distributed scenario for fault tolerance.

    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    wordCounts.print()

    ssc.start()

    ssc.awaitTermination()

  }

}

（一）构建自己的项目

本示例使用java+maven来构建一个wordcount

1、创建项目，在pom.xml添加如下的依赖关系

</dependency>

</dependency>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.10</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming_2.10</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-streaming-kafka_2.10</artifactId>

</dependency>

<groupId>org.apache.kafka</groupId>

<artifactId>kafka_2.10</artifactId>

</dependency>

2、写代码，此部分代码使用了官方的代码：

package com.netease.gdc.kafkaStreaming;

import java.util.Map;

import java.util.HashMap;

import java.util.regex.Pattern;

import scala.Tuple2;

import com.google.common.collect.Lists;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Duration;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka.KafkaUtils;

/**

 * Consumes messages from one or more topics in Kafka and does wordcount.

 *

 * Usage: JavaKafkaWordCount

 * is a list of one or more zookeeper servers that make quorum

 * is the name of kafka consumer group

 * is a list of one or more kafka topics to consume from

 *is the number of threads the kafka consumer should use

 *

 * To run this example:

 *   `$ bin/run-example org.apache.spark.examples.streaming.JavaKafkaWordCount zoo01,zoo02, \

 *    zoo03 my-consumer-group topic1,topic2 1`

 */

public final class JavaKafkaWordCount {

  private static final Pattern SPACE = Pattern.compile(" ");

  private JavaKafkaWordCount() {

  }

  public static void main(String[] args) {

    if (args.length < 4) {

      System.err.println("Usage: JavaKafkaWordCount

");

      System.exit(1);

    }

    SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount");

    // Create the context with a 1 second batch size

    JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(2000));

    int numThreads = Integer.parseInt(args[3]);

    Map topicMap = new HashMap();

    String[] topics = args[2].split(",");

    for (String topic: topics) {

      topicMap.put(topic, numThreads);

    }

    JavaPairReceiverInputDStream messages =

            KafkaUtils.createStream(jssc, args[0], args[1], topicMap);

    JavaDStream lines = messages.map(new Function<tuple2, String>() {

      @Override

      public String call(Tuple2 tuple2) {

        return tuple2._2();

      }

    });

    JavaDStream words = lines.flatMap(new FlatMapFunction() {

      @Override

      public Iterable call(String x) {

        return Lists.newArrayList(SPACE.split(x));

      }

    });

    JavaPairDStream wordCounts = words.mapToPair(

      new PairFunction() {

        @Override

        public Tuple2 call(String s) {

          return new Tuple2(s, 1);

        }

      }).reduceByKey(new Function2() {

        @Override

        public Integer call(Integer i1, Integer i2) {

          return i1 + i2;

        }

      });

    wordCounts.print();

    jssc.start();

    jssc.awaitTermination();

  }

}

3、上传到服务器中然后编译

mvn clean package

4、提交job到spark中

/home/hadoop/spark/bin/spark-submit --jars ../mylib/metrics-core-2.2.0.jar,../mylib/zkclient-0.3.jar,../mylib/spark-streaming-kafka_2.10-1.4.0.jar,../mylib/kafka-clients-0.8.2.1.jar,../mylib/kafka_2.10-0.8.2.1.jar  --class com.netease.gdc.kafkaStreaming.JavaKafkaWordCount --master spark://192.168.165.102:7077  target/kafkaStreaming-0.0.1-SNAPSHOT.jar 192.168.172.111:2181/kafka my-consumer-group test 3

当然，前提是kafka集群已经正常运行，且存在test这个topic

5、验证

打开一个console producer，输入内容，然后观察wordcount的结果。

结果形式如下：

(hi,1)

Spark Streaming教程的更多相关文章

[spark]Spark Streaming教程
(一)官方入门示例废话不说,先来个示例,有个感性认识再介绍. 这个示例来自spark自带的example,基本步骤如下: (1)使用以下命令输入流消息: $ nc -lk 9999 (2)在一个 ...
cdh环境下，spark streaming与flume的集成问题总结
文章发自:http://www.cnblogs.com/hark0623/p/4170156.html 转发请注明如何做集成,其实特别简单,网上其实就是教程. http://blog.csdn.n ...
Spark Streaming入门
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文将帮助您使用基于HBase的Apache Spark Streaming.Spark Streaming是Spark API核心的一个扩 ...
【概念、概述】Spark入门教程[1]
本教程源于2016年3月出版书籍<Spark原理.机制及应用> ,如有兴趣,请支持正版书籍. 随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB.PB甚至EB级数据量,由于传 ...
spark streaming之 windowDuration、slideDuration、batchDuration
spark streaming 不同于sotm,是一种准实时处理系统.storm 中,把批处理看错是时间教程的实时处理.而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理 ...
[Spark] 07 - Spark Streaming Programming
Streaming programming 一.编程套路编写Streaming程序的套路创建DStream,也就定义了输入源. 对DStream进行一些 “转换操作” 和 "输出操作&q ...
flink和spark Streaming中的Back Pressure
Spark Streaming的back pressure 在讲flink的back pressure之前,我们先讲讲Spark Streaming的back pressure.Spark Strea ...
Flink与Spark Streaming在与kafka结合的区别！
本文主要是想聊聊flink与kafka结合.当然,单纯的介绍flink与kafka的结合呢,比较单调,也没有可对比性,所以的准备顺便帮大家简单回顾一下Spark Streaming与kafka的结合. ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

随机推荐

关于 js 的框架方向
关于 js 的框架方向 http://www.breck-mckye.com/blog/2014/12/the-state-of-javascript-in-2015/?utm_source=ourj ...
POJ 2981 Strange Way to Express Integers 模线性方程组
http://poj.org/problem?id=2891 结果看了半天还是没懂那个模的含义...懂了我再补充... 其他的思路都在注释里 /********************* Templa ...
Django模型三
关联对象操作及多表查询关联表的数据操作: 一对多: 正向:如果一个模型有外键字段,通过这个模型对外键进行操作叫做正向. 更新: 通过属性赋值 In [1]: from teacher.models ...
洛谷——P2093 零件分组
https://www.luogu.org/problem/show?pid=2093 题目描述某工厂生产一批棍状零件,每个零件都有一定的长度(Li)和重量(Wi).现在为了加工需要,要将它们分成若 ...
POJ 2481 Cows (线段树)
Cows 题目:http://poj.org/problem?id=2481 题意:有N头牛,每仅仅牛有一个值[S,E],假设对于牛i和牛j来说,它们的值满足以下的条件则证明牛i比牛j强壮:Si &l ...
Dos图像复制成序列
rem 输入1.png,在当前文件下复制.0000.png--0002.png rem 注:way2是不等待0001.png运行完就開始运行下一个了. rem 假设要等待上一个运行完后,再往下顺弃运行 ...
ubuntu-文件管理、编辑
1.创建单层文件夹 mkdir test 如果你想要创建多层文件夹,这时候你需要添加一个参数-p mkdir -p t1/t2/t3 如果你不加-p的话,它会提示说找不到目录 2.分屏查看内容 mor ...
F的ACM暑期集训计划
暑假的知识计划(补充中...) 1.数论相关 (7days) 待完成多项式同余方程/高次同余方程/欧拉函数/克莱姆法则/高斯消元/莫比乌斯反演/伪素数判定/baby-step-gaint-step ...
linux网络防火墙-iptables基础详解
一:前言防火墙,其实说白了讲,就是用于实现Linux下访问控制的功能的,它分为硬件的或者软件的防火墙两种.无论是在哪个网络中,防火墙工作的地方一定是在网络的边缘.而我们的任务就是需要去定义到底防火墙 ...
Linux启动（续）
runlevel (启动级别): 查看命令 :who -r 或 runlevel 0:halt 关机 1:单用户模式,直接以管理员身份登录,不需要密码 ...

Spark Streaming教程

Spark Streaming教程的更多相关文章

随机推荐

热门专题