java spark-streaming接收TCP/Kafka数据

本文将展示

1、如何使用spark-streaming接入TCP数据并进行过滤；

2、如何使用spark-streaming接入TCP数据并进行wordcount；

内容如下：

1、使用maven，先解决pom依赖

<dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming-kafka_2.10</artifactId>

            <version>1.6.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.10</artifactId>

            <version>1.6.0</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.10</artifactId>

            <version>1.6.0</version>

            <scope>provided</scope>

        </dependency>

1、接收TCP数据并过滤，打印含有error的行

package com.xiaoju.dqa.realtime_streaming;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.Durations;

//nc -lk 9999

public class SparkStreamingTCP {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setMaster("local").setAppName("streaming word count");

        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));

        JavaDStream<String> lines = jssc.socketTextStream("10.93.21.21", 9999);

        JavaDStream<String> errorLines = lines.filter(new Function<String, Boolean>() {

            @Override

            public Boolean call(String s) throws Exception {

                return s.contains("error");

            }

        });

        errorLines.print();

        jssc.start();

        jssc.awaitTermination();

    }

}

执行方法

$ spark-submit realtime-streaming-1.0-SNAPSHOT-jar-with-dependencies.jar
# 另起一个窗口
$ nc -lk 9999
# 输入数据

2、接收Kafka数据并进行计数(WordCount)

package com.xiaoju.dqa.realtime_streaming;

import java.util.*;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.api.java.*;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka.KafkaUtils;

import org.apache.spark.streaming.Durations;

import scala.Tuple2;

// bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

public class SparkStreamingKafka {

    public static void main(String[] args) throws InterruptedException {

        SparkConf conf = new SparkConf().setMaster("yarn-client").setAppName("streaming word count");

        //String topic = "offline_log_metrics";

        String topic = "test";

        int part = 1;

        JavaSparkContext sc = new JavaSparkContext(conf);

        sc.setLogLevel("WARN");

        JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(10));

        Map<String ,Integer> topicMap = new HashMap<String, Integer>();

        String[] topics = topic.split(";");

        for (int i=0; i<topics.length; i++) {

            topicMap.put(topics[i], 1);

        }

        List<JavaPairReceiverInputDStream<String, String>> list = new ArrayList<JavaPairReceiverInputDStream<String, String>>();

        for (int i = 0; i < part; i++) {

            list.add(KafkaUtils.createStream(jssc,

                    "10.93.21.21:2181",

                    "bigdata_qa",

                    topicMap));

        }

        JavaPairDStream<String, String> wordCountLines = list.get(0);

        for (int i = 1; i < list.size(); i++) {

            wordCountLines = wordCountLines.union(list.get(i));

        }

        JavaPairDStream<String, Integer> counts = wordCountLines.flatMap(new FlatMapFunction<Tuple2<String, String>, String>(){

            @Override

            public Iterable<String> call(Tuple2<String, String> stringStringTuple2){

                List<String> list2 = null;

                try {

                    if ("".equals(stringStringTuple2._2) || stringStringTuple2._2 == null) {

                        System.out.println("_2 is null");

                        throw new Exception("_2 is null");

                    }

                    list2 = Arrays.asList(stringStringTuple2._2.split(" "));

                } catch (Exception ex) {

                    ex.printStackTrace();

                    System.out.println(ex.getMessage());

                }

                return list2;

            }

        }).mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                Tuple2<String, Integer> tuple2 = null;

                try {

                    if (s==null || "".equals(s)) {

                        tuple2 = new Tuple2<String, Integer>(s, 0);

                        throw new Exception("s is null");

                    }

                    tuple2 = new Tuple2<String, Integer>(s, 1);

                } catch (Exception ex) {

                    ex.printStackTrace();

                }

                return tuple2;

            }

        }).reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer x, Integer y) throws Exception {

                return x + y;

            }

        });

        counts.print();

        jssc.start();

        try {

            jssc.awaitTermination();

        } catch (Exception ex) {

            ex.printStackTrace();

        } finally {

            jssc.close();

        }

    }

}

执行方法

 $ spark-submit --queue=root.XXX realtime-streaming-1.0-SNAPSHOT-jar-with-dependencies.jar
# 另开一个窗口，启动kafka生产者
$ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
# 输入数据

java spark-streaming接收TCP/Kafka数据的更多相关文章

Spark Streaming接收Kafka数据存储到Hbase
Spark Streaming接收Kafka数据存储到Hbase fly spark hbase kafka 主要参考了这篇文章https://yq.aliyun.com/articles/60712 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数
官网文档:<http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example> Sp ...
spark streaming 接收kafka消息之五 -- spark streaming 和 kafka 的对接总结
Spark streaming 和kafka 处理确保消息不丢失的总结接入kafka 我们前面的1到4 都在说 spark streaming 接入 kafka 消息的事情.讲了两种接入方式,以及s ...
Spark Streaming连接TCP Socket
1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitte ...
Spark Streaming的容错和数据无丢失机制
spark是迭代式的内存计算框架,具有很好的高可用性.sparkStreaming作为其模块之一,常被用于进行实时的流式计算.实时的流式处理系统必须是7*24运行的,同时可以从各种各样的系统错误中恢复 ...
spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
demo1 spark streaming 接收 kafka 数据java代码WordCount示例
1. 首先启动zookeeper windows上的安装见zk 02之 Windows安装和使用zookeeper 启动后见: 2. 启动kafka windows的安装kafka见Windows上搭 ...
spark streaming 接收kafka消息之四 -- 运行在 worker 上的 receiver
使用分布式receiver来获取数据使用 WAL 来实现 exactly-once 操作: conf.set("spark.streaming.receiver.writeAheadLog. ...
spark streaming 接收kafka消息之二 -- 运行在driver端的receiver
先从源码来深入理解一下 DirectKafkaInputDStream 的将 kafka 作为输入流时,如何确保 exactly-once 语义. val stream: InputDStream[( ...

随机推荐

ERROR: JDWP Unable to get JNI 1.2 environment, jvm->GetEnv() return code = -2
java编程时偶尔出现运行结果下面这样的错误: ERROR: JDWP Unable to get JNI 1.2 environment, jvm->GetEnv() return code ...
201521044091 《Java程序设计》第3周学习总结
1. 本周学习总结初学面向对象,会学习到很多碎片化的概念与知识.尝试学会使用思维导图将这些碎片化的概念.知识组织起来.请使用纸笔或者下面的工具画出本周学习到的知识点.截图或者拍照上传. 本周学习总结 ...
201521123047 《Java学习笔记》第二周学习总结
1. 本周学习总结 -知道并了解到浮点数的误差关系,懂得运java.math.BigDecimal来进行浮点数的精确计算 -对于"="与"=="的区分 -字符串 ...
201521123098 《Java程序设计》第11周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 1. 在编写类时,要有写构造函数和各变量的getter()和setter()方法的习惯: 2. 同步操作时要记得在 ...
201521123100 《Java程序设计》第9周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业 1.本次PTA作业题集异常常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自己 ...
201521123045 《JAVA程序设计》第1周学习总结
1. 本周学习总结学习了入门的java知识,知道了jdk.eclipse等基础软件,了解了如何编译最基础的java程序.知道了java的基本原理以及java的几种数据类型.掌握使用简单编译器编写ja ...
shell脚本命令，一些你在书上找不到的命令。
1.!$<!$是一个特殊的环境变量,它代表了上一个命令的最后一个字符串.如:你可能会这样: $mkdir mydir$mv mydir yourdir$cd yourdir 可以改成: $mkd ...
Java并发编程 Volatile关键字解析
volatile关键字的两层语义一旦一个共享变量(类的成员变量.类的静态成员变量)被volatile修饰之后,那么就具备了两层语义: 1)保证了不同线程对这个变量进行操作时的可见性,即一个线程修改了 ...
JDBC操作数据库之查询数据
以数据库中查找图书信息,并将信息显示在jsp页面当中为例,下面贴上代码片段: (1)在index.jsp页面代码body中只要添加如下一段代码: <a href="FindServle ...
从content-type设置看Spring MVC处理header的一个坑
我们经常需要在HttpResponse中设置一些headers,我们使用Spring MVC框架的时候我们如何给Response设置Header呢? Sooooooooooooo easy, 看下面的 ...

java spark-streaming接收TCP/Kafka数据

java spark-streaming接收TCP/Kafka数据的更多相关文章

随机推荐

热门专题