Spark之 Spark Streaming整合kafka(Java实现版本)

pom依赖

    <properties>

        <scala.version>2.11.8</scala.version>

        <hadoop.version>2.7.4</hadoop.version>

        <spark.version>2.1.3</spark.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>${scala.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming-flume_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>

            <version>${spark.version}</version>

        </dependency>

    </dependencies>

demo代码

package com.blaze.kafka2streaming;

import com.blaze.conf.ConfigurationManager;

import com.blaze.constant.Constants;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.Optional;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.dstream.DStream;

import org.apache.spark.streaming.kafka010.ConsumerStrategies;

import org.apache.spark.streaming.kafka010.KafkaUtils;

import org.apache.spark.streaming.kafka010.LocationStrategies;

import scala.Tuple2;

import java.util.*;

/**

 * create by zy 2019/3/15 9:26

 * TODO: kafka2streaming示例  使用的java8的lambda表达式(idea可以alt+enter将方法转换成非lambda表达式的java代码)

 */

public class BlazeDemo {

    public static void main(String[] args) {

        // 构建SparkStreaming上下文

        SparkConf conf = new SparkConf().setAppName("BlazeDemo").setMaster("local[2]");

        // 每隔5秒钟，sparkStreaming作业就会收集最近5秒内的数据源接收过来的数据

        JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(5));

        //checkpoint目录

        //jssc.checkpoint(ConfigurationManager.getProperty(Constants.STREAMING_CHECKPOINT_DIR));

        jssc.checkpoint("/streaming_checkpoint");

        // 构建kafka参数map

        // 主要要放置的是连接的kafka集群的地址（broker集群的地址列表）

        Map<String, Object> kafkaParams = new HashMap<>();

        //Kafka服务监听端口

        kafkaParams.put("bootstrap.servers", ConfigurationManager.getProperty(Constants.KAFKA_BOOTSTRAP_SERVERS));

        //指定kafka输出key的数据类型及编码格式（默认为字符串类型编码格式为uft-8）

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        //指定kafka输出value的数据类型及编码格式（默认为字符串类型编码格式为uft-8）

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        //消费者ID，随意指定

        kafkaParams.put("group.id", ConfigurationManager.getProperty(Constants.GROUP_ID));

        //指定从latest(最新,其他版本的是largest这里不行)还是smallest(最早)处开始读取数据

        kafkaParams.put("auto.offset.reset", "latest");

        //如果true,consumer定期地往zookeeper写入每个分区的offset

        kafkaParams.put("enable.auto.commit", false);

        // 构建topic set

        String kafkaTopics = ConfigurationManager.getProperty(Constants.KAFKA_TOPICS);

        String[] kafkaTopicsSplited = kafkaTopics.split(",");

        Collection<String> topics = new HashSet<>();

        for (String kafkaTopic : kafkaTopicsSplited) {

            topics.add(kafkaTopic);

        }

        try {

            // 获取kafka的数据

            final JavaInputDStream<ConsumerRecord<String, String>> stream =

                    KafkaUtils.createDirectStream(

                            jssc,

                            LocationStrategies.PreferConsistent(),

                            ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)

                    );

            //获取words

            //JavaDStream<String> words = stream.flatMap(s -> Arrays.asList(s.value().split(",")).iterator());

            JavaDStream<String> words = stream.flatMap((FlatMapFunction<ConsumerRecord<String, String>, String>) s -> {

                List<String> list = new ArrayList<>();

                //todo 获取到kafka的每条数据 进行操作

                System.out.print("***************************" + s.value() + "***************************");

                list.add(s.value() + "23333");

                return list.iterator();

            });

            //获取word,1格式数据

            JavaPairDStream<String, Integer> wordsAndOne = words.mapToPair((PairFunction<String, String, Integer>) word -> new Tuple2<>(word, 1));

            //聚合本次5s的拉取的数据

            //JavaPairDStream<String, Integer> wordsCount = wordsAndOne.reduceByKey((Function2<Integer, Integer, Integer>) (a, b) -> a + b);

            //wordsCount.print();

            //历史累计 60秒checkpoint一次

            DStream<Tuple2<String, Integer>> result = wordsAndOne.updateStateByKey(((Function2<List<Integer>, Optional<Integer>, Optional<Integer>>) (values, state) -> {

                Integer updatedValue = 0;

                if (state.isPresent()) {

                    updatedValue = Integer.parseInt(state.get().toString());

                }

                for (Integer value : values) {

                    updatedValue += value;

                }

                return Optional.of(updatedValue);

            })).checkpoint(Durations.seconds(60));

            result.print();

            //开窗函数 5秒计算一次 计算前15秒的数据聚合

            JavaPairDStream<String, Integer> result2 = wordsAndOne.reduceByKeyAndWindow((Function2<Integer, Integer, Integer>) (x, y) -> x + y,

                    Durations.seconds(15), Durations.seconds(5));

            result2.print();

            jssc.start();

            jssc.awaitTermination();

            jssc.close();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

相关配置文件

package com.blaze.conf;

import java.io.InputStream;

import java.util.Properties;

/**

 * create by zy 2019/3/15 9:33

 * TODO:

 */

public class ConfigurationManager {

    //私有配置对象

    private static Properties prop = new Properties();

    /**

     * 静态代码块

     */

    static {

        try {

            //获取配置文件输入流

            InputStream in = ConfigurationManager.class

                    .getClassLoader().getResourceAsStream("blaze.properties");

            //加载配置对象

            prop.load(in);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    /**

     * 获取指定key对应的value

     *

     * @param key

     * @return value

     */

    public static String getProperty(String key) {

        return prop.getProperty(key);

    }

    /**

     * 获取整数类型的配置项

     *

     * @param key

     * @return value

     */

    public static Integer getInteger(String key) {

        String value = getProperty(key);

        try {

            return Integer.valueOf(value);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return 0;

    }

    /**

     * 获取布尔类型的配置项

     *

     * @param key

     * @return value

     */

    public static Boolean getBoolean(String key) {

        String value = getProperty(key);

        try {

            return Boolean.valueOf(value);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return false;

    }

    /**

     * 获取Long类型的配置项

     *

     * @param key

     * @return

     */

    public static Long getLong(String key) {

        String value = getProperty(key);

        try {

            return Long.valueOf(value);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return 0L;

    }

}

package com.blaze.constant;

/**

 * create by zy 2019/3/15 9:31

 * TODO:常量接口

 */

public interface Constants {

    String GROUP_ID = "group.id";

    String KAFKA_TOPICS = "kafka.topics";

    String KAFKA_BOOTSTRAP_SERVERS = "bootstrap.servers";

    String STREAMING_CHECKPOINT_DIR = "streaming.checkpoint.dir";

}

blaze.properties

bootstrap.servers=192.168.44.41:9092,192.168.44.42:9092,192.168.44.43:9092

kafka.topics=sparkDemo

group.id=blaze

streaming.checkpoint.dir=hdfs://192.168.44.41:9000/streaming_checkpoint

Spark之 Spark Streaming整合kafka(Java实现版本)的更多相关文章

Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）
Kafka0.8版本基于receiver接受器去接受kafka topic中的数据(并演示reduceByKeyAndWindow的使用) 依赖 <dependency> <grou ...
Spark学习之路（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: s ...
Spark 系列（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下 ...
spark streaming 整合 kafka(一)
转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合 ...
spark streaming 整合kafka(二)
转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的 ...
spark streaming整合kafka
版本说明:spark:2.2.0: kafka:0.10.0.0 object StreamingDemo { def main(args: Array[String]): Unit = { Logg ...
Spark Streaming 整合 Kafka
一:通过设置检查点,实现单词计数的累加功能 object StatefulKafkaWCnt { /** * 第一个参数:聚合的key,就是单词 * 第二个参数:当前批次产生批次该单词在每一个分区出现 ...
spark streaming消费kafka: Java .lang.IllegalStateException: No current assignment for partition
1 原因是: 多个相同的Spark Streaming同时消费同一个topic,导致的offset问题.关掉多余的任务,就ok了.
Spark_Streaming整合Kafka
Spark Streaming 整合 Kafka 一.版本说明二.项目依赖三.整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3 ...

随机推荐

[转]NSIS常用代码整理
转自 http://www.flighty.cn/html/bushu/20120827_156.html 这是一些常用的NSIS代码,少轻狂特意整理出来,方便大家随时查看使用.不定期更新哦~~~ ; ...
windows,linux下SVN实现自动更新WEB目录
通过SVN进行版本库管理,每次提交后,都要在SVN服务器更新最新上传的版本到WEB目录进行同步.操作比较烦琐,而且效率也低.使用SVN钩子脚本进行WEB目录同步,可很好的解决这方面的问题.由于测试机器 ...
含有不等式约束的优化问题——KKT条件
优化问题: 其中, 定义:对于一个不等式约束,如果,那么称不等式约束是处起作用的约束. 定义:设满足,设为起作用不等式约束的下标集: 如果向量:是线性无关的,则称是一个正则点. 下面给出某个点是局部极 ...
修改 Docker-MySQL 容器的默认用户加密规则
背景介绍今天开始做集成测试,需要把程序和环境重新部署在新的服务器上.项目的环境都是基于Docker来的,所以数据库也是选择从Docker官网上面拉官方的MySQL镜像.(Tag = 8.0.12) ...
Java 中的 JVM、堆和栈 -- 初步了解
JVM -- Java Virtual Machine(Java虚拟机) —— 因为要说堆和栈,所以我们必须要先简单的说一下JVM.(JVM详细请找度娘啦~) 首先,我们都知道 java 一直宣传的口 ...
搭建Hive 2.1.1 基于Hadoop 2.6.1 和 Ubuntu 16.0.4 记录
Hadoop Hive Hbase 对应版本 Hive官网下载我们以Hadoop版本作为参考适配Hive Hbase即可, Hadoop版本是2.6.1 所以可以选择Hive1.2.1以上版 ...
配置Ubuntu虚拟环境
1.ubuntu默认root用户没有激活,激活root用户,就要为root用户创建密码 $sudo passwd root 2.修改主机名 $vi /etc/hostname 3.安装ssh服 ...
restfull 风格参考 https://blog.csdn.net/jaryle/article/details/52141097
https://www.cnblogs.com/xiaoxian1369/p/4332390.html :
Mongodb 安装和启动
教程:http://www.mongodb.org.cn/tutorial/59.html 下载 >wget https://fastdl.mongodb.org/linux/mongodb-l ...
Spring mvc RequestContextHolder分析
转载: http://blog.csdn.net/zzy7075/article/details/53559902

Spark之 Spark Streaming整合kafka(Java实现版本)

Spark之 Spark Streaming整合kafka(Java实现版本)的更多相关文章

随机推荐

热门专题