一、spark-streaming-kafka-0-8_2.11-2.0.2.jar

1、pom.xml


  1. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11 -->
  2. <dependency>
  3. <groupId>org.apache.spark</groupId>
  4. <artifactId>spark-core_2.11</artifactId>
  5. <version>2.0.2</version>
  6. <scope>runtime</scope>
  7. </dependency>
  8. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.11 -->
  9. <dependency>
  10. <groupId>org.apache.spark</groupId>
  11. <artifactId>spark-streaming_2.11</artifactId>
  12. <version>2.0.2</version>
  13. <scope>runtime</scope>
  14. </dependency>
  15. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8_2.11 -->
  16. <dependency>
  17. <groupId>org.apache.spark</groupId>
  18. <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
  19. <version>2.0.2</version>
  20. <scope>runtime</scope>
  21. </dependency>

2、Kafka Consumer类


  1. package com.spark.main;
  2. import java.util.Arrays;
  3. import java.util.HashMap;
  4. import java.util.HashSet;
  5. import java.util.Map;
  6. import java.util.Set;
  7. import org.apache.spark.SparkConf;
  8. import org.apache.spark.api.java.JavaRDD;
  9. import org.apache.spark.api.java.function.Function;
  10. import org.apache.spark.api.java.function.VoidFunction;
  11. import org.apache.spark.streaming.Durations;
  12. import org.apache.spark.streaming.api.java.JavaDStream;
  13. import org.apache.spark.streaming.api.java.JavaPairInputDStream;
  14. import org.apache.spark.streaming.api.java.JavaStreamingContext;
  15. import org.apache.spark.streaming.kafka.KafkaUtils;
  16. import kafka.serializer.StringDecoder;
  17. import scala.Tuple2;
  18. public class KafkaConsumer{
  19. public static void main(String[] args) throws InterruptedException{
  20. /**
  21. * SparkConf sparkConf = new SparkConf().setAppName("KafkaConsumer").setMaster("local[2]");
  22. * setMaster("local[2]"),至少要指定两个线程,一条用于用于接收消息,一条线程用于处理消息
  23. * Durations.seconds(2)每两秒读取一次kafka
  24. */
  25. SparkConf sparkConf = new SparkConf().setAppName("KafkaConsumer").setMaster("local[2]");
  26. JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.milliseconds(500));
  27. jssc.checkpoint("hdfs://192.168.168.200:9000/checkpoint/KafkaConsumer");
  28. /**
  29. * 配置连接kafka的相关参数
  30. */
  31. Set<String> topicsSet = new HashSet<String>(Arrays.asList("TestTopic"));
  32. Map<String, String> kafkaParams = new HashMap<String, String>();
  33. kafkaParams.put("metadata.broker.list", "192.168.168.200:9092");
  34. kafkaParams.put("auto.offset.reset", "smallest");//smallest:从最初开始;largest :从最新开始
  35. kafkaParams.put("fetch.message.max.bytes", "524288");
  36. JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream(jssc, String.class, String.class,
  37. StringDecoder.class, StringDecoder.class, kafkaParams, topicsSet);
  38. /**
  39. * _2()获取第二个对象的值
  40. */
  41. JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {
  42. public String call(Tuple2<String, String> tuple2) {
  43. return tuple2._2();
  44. }
  45. });
  46. lines.foreachRDD(new VoidFunction<JavaRDD<String>>() {
  47. public void call(JavaRDD<String> rdd) throws Exception {
  48. rdd.foreach(new VoidFunction<String>() {
  49. public void call(String s) throws Exception {
  50. System.out.println(s);
  51. }
  52. });
  53. }
  54. });
  55. // Start the computation
  56. jssc.start();
  57. jssc.awaitTermination();
  58. }
  59. }

二、spark-streaming-kafka-0-10_2.11-2.0.2.jar

1、pom.xml


  1. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11 -->
  2. <dependency>
  3. <groupId>org.apache.spark</groupId>
  4. <artifactId>spark-core_2.11</artifactId>
  5. <version>2.0.2</version>
  6. <scope>runtime</scope>
  7. </dependency>
  8. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.11 -->
  9. <dependency>
  10. <groupId>org.apache.spark</groupId>
  11. <artifactId>spark-streaming_2.11</artifactId>
  12. <version>2.0.2</version>
  13. <scope>runtime</scope>
  14. </dependency>
  15. <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-10_2.11 -->
  16. <dependency>
  17. <groupId>org.apache.spark</groupId>
  18. <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
  19. <version>2.0.2</version>
  20. <scope>runtime</scope>
  21. </dependency>

2、Kafka Consumer类


  1. package com.spark.main;
  2. import java.util.Arrays;
  3. import java.util.HashMap;
  4. import java.util.HashSet;
  5. import java.util.Map;
  6. import java.util.Set;
  7. import org.apache.kafka.clients.consumer.ConsumerRecord;
  8. import org.apache.kafka.common.serialization.StringDeserializer;
  9. import org.apache.spark.SparkConf;
  10. import org.apache.spark.api.java.JavaRDD;
  11. import org.apache.spark.api.java.function.Function;
  12. import org.apache.spark.api.java.function.VoidFunction;
  13. import org.apache.spark.streaming.Durations;
  14. import org.apache.spark.streaming.api.java.JavaDStream;
  15. import org.apache.spark.streaming.api.java.JavaInputDStream;
  16. import org.apache.spark.streaming.api.java.JavaPairInputDStream;
  17. import org.apache.spark.streaming.api.java.JavaStreamingContext;
  18. import org.apache.spark.streaming.kafka010.ConsumerStrategies;
  19. import org.apache.spark.streaming.kafka010.KafkaUtils;
  20. import org.apache.spark.streaming.kafka010.LocationStrategies;
  21. import kafka.serializer.StringDecoder;
  22. import scala.Tuple2;
  23. public class Kafka10Consumer{
  24. public static void main(String[] args) throws InterruptedException{
  25. /**
  26. * SparkConf sparkConf = new SparkConf().setAppName("KafkaConsumer").setMaster("local[2]");
  27. * setMaster("local[2]"),至少要指定两个线程,一条用于用于接收消息,一条线程用于处理消息
  28. * Durations.seconds(2)每两秒读取一次kafka
  29. */
  30. SparkConf sparkConf = new SparkConf().setAppName("Kafka10Consumer").setMaster("local[2]");
  31. JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.milliseconds(500));
  32. jssc.checkpoint("hdfs://192.168.168.200:9000/checkpoint/Kafka10Consumer");
  33. /**
  34. * 配置连接kafka的相关参数
  35. */
  36. Set<String> topicsSet = new HashSet<String>(Arrays.asList("TestTopic"));
  37. Map<String, Object> kafkaParams = new HashMap<String, Object>();
  38. kafkaParams.put("bootstrap.servers", "192.168.168.200:9092");
  39. kafkaParams.put("key.deserializer", StringDeserializer.class);
  40. kafkaParams.put("value.deserializer", StringDeserializer.class);
  41. kafkaParams.put("group.id", "Kafka10Consumer");
  42. kafkaParams.put("auto.offset.reset", "earliest");//earliest : 从最早开始;latest :从最新开始
  43. kafkaParams.put("enable.auto.commit", false);
  44. //通过KafkaUtils.createDirectStream(...)获得kafka数据,kafka相关参数由kafkaParams指定
  45. JavaInputDStream<ConsumerRecord<Object,Object>> messages = KafkaUtils.createDirectStream(
  46. jssc,
  47. LocationStrategies.PreferConsistent(),
  48. ConsumerStrategies.Subscribe(topicsSet, kafkaParams)
  49. );
  50. /**
  51. * _2()获取第二个对象的值
  52. */
  53. JavaDStream<String> lines = messages.map(new Function<ConsumerRecord<Object,Object>, String>() {
  54. @Override
  55. public String call(ConsumerRecord<Object, Object> consumerRecord) throws Exception {
  56. // TODO Auto-generated method stub
  57. return consumerRecord.value().toString();
  58. }
  59. });
  60. lines.foreachRDD(new VoidFunction<JavaRDD<String>>() {
  61. public void call(JavaRDD<String> rdd) throws Exception {
  62. rdd.foreach(new VoidFunction<String>() {
  63. public void call(String s) throws Exception {
  64. System.out.println(s);
  65. }
  66. });
  67. }
  68. });
  69. // Start the computation
  70. jssc.start();
  71. jssc.awaitTermination();
  72. }
  73. }

spark-streaming-kafka-0-8 和 0-10的使用区别的更多相关文章

  1. Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)

    这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...

  2. Spark踩坑记——Spark Streaming+Kafka

    [TOC] 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

  3. Spark Streaming+Kafka

    Spark Streaming+Kafka 前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

  4. spark streaming kafka example

    // scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...

  5. spark streaming - kafka updateStateByKey 统计用户消费金额

    场景 餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现 从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...

  6. Spark踩坑记:Spark Streaming+kafka应用及调优

    前言 在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从k ...

  7. Spark streaming + Kafka 流式数据处理,结果存储至MongoDB、Solr、Neo4j(自用)

    KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...

  8. IDEA Spark Streaming Kafka数据源-Consumer

    import org.apache.spark.SparkConf import org.apache.spark.streaming.kafka.KafkaUtils import org.apac ...

  9. 4、spark streaming+kafka

    一.Receiver模式 1. receiver模式原理图 在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据.数据会被持久化 ...

  10. spark.streaming.kafka.maxRatePerPartition的理解

    spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数. 假设此项设为1,批次间隔为10s,目标topic只有 ...

随机推荐

  1. slaac

    https://zhidao.baidu.com/question/460186176.html slaac是IPv6中的术语.Stateless address autoconfiguration, ...

  2. express安装中出现无此命令

    原来,最新express4.0版本中将命令工具分家出来了(项目地址:https://github.com/expressjs/generator),所以我们还需要安装一个命令工具,命令如下: 安装ex ...

  3. Spring Boot 揭秘与实战(二) 数据缓存篇 - Guava Cache

    文章目录 1. Guava Cache 集成 2. 个性化配置 3. 源代码 本文,讲解 Spring Boot 如何集成 Guava Cache,实现缓存. 在阅读「Spring Boot 揭秘与实 ...

  4. CodeForces - 1097F:Alex and a TV Show (bitset & 莫比乌斯容斥)

    Alex decided to try his luck in TV shows. He once went to the quiz named "What's That Word?!&qu ...

  5. Linux中查看显卡硬件信息

    Linux中查看显卡硬件信息 https://ywnz.com/linuxjc/67.html lspci -vnn | grep VGA -A 12lshw -C display 查看当前使用的显卡 ...

  6. hdu1540 Tunnel Warfare 线段树/树状数组

    During the War of Resistance Against Japan, tunnel warfare was carried out extensively in the vast a ...

  7. LG4071 [SDOI2016]排列计数

    题意 题目描述 求有多少种长度为 n 的序列 A,满足以下条件: 1 ~ n 这 n 个数在序列中各出现了一次 若第 i 个数 A[i] 的值为 i,则称 i 是稳定的.序列恰好有 m 个数是稳定的 ...

  8. java的数组和arraylist

    1.数组 1.0   一开始就错了 int a[8];   //没有像C在内存中开辟了8个区域 改: int a[] = {1,2,3} ; System.out.println(a.length); ...

  9. OpenGL编程-OpenGL框架-win32项目

    在win32项目中开发的程序 小知识: 控制台应用程序运行就是dos的界面 项目一般采用了可视化开发 开发出来的东西就像QQ之类的 是有窗口界面的 程序运行结果是这样的 源代码:对第45行进行覆盖 # ...

  10. rpm使用

    查找某个rpm包是否安装 rpm -qa|grep 包名 #我们再次安装是会提示和那个包冲突,直接复制那个报名过来就可 安装rpm包 rpm -ivh 报名