一、下载依赖jar包

具体可以参考：SparkStreaming整合kafka编程

二、创建Java工程

太简单，略。

三、实际例子

spark的安装包里面有好多例子，具体路径：spark-2.1.1-bin-hadoop2.7\examples。

JavaDirectKafkaWordCount.java

package com.spark.test;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Arrays;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;
import java.util.regex.Pattern;
import scala.Tuple2;
import kafka.serializer.StringDecoder;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.api.java.*;
import org.apache.spark.streaming.kafka.KafkaUtils;
import org.apache.spark.streaming.Durations;
public class JavaDirectKafkaWordCount {
public static void main(String[] args) throws Exception {
//String brokers = args[0];
// String topics = args[1];
// Create context with a 2 seconds batch interval
/**
* setMaster("local[2]")，至少要指定两个线程，一条用于用于接收消息，一条线程用于处理消息
*/
SparkConf sparkConf = new SparkConf().setAppName("JavaDirectKafkaWordCount").setMaster("local[2]");
JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, Durations.seconds(2));
Set<String> topicsSet = new HashSet<>(Arrays.asList("test"));
Map<String, String> kafkaParams = new HashMap<>();
kafkaParams.put("metadata.broker.list", "192.168.168.200:9092");
// Create direct kafka stream with brokers and topics
JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream(
jssc,
String.class,
String.class,
StringDecoder.class,
StringDecoder.class,
kafkaParams,
topicsSet
);
// Get the lines, split them into words, count the words and print
JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {
@Override
public String call(Tuple2<String, String> tuple2) {
return tuple2._2();
}
});
JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String line) {
return Arrays.asList(line.split(" ")).iterator();
}
});
JavaPairDStream<String, Integer> wordCounts = words.mapToPair(
new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String s) {
return new Tuple2<>(s, 1);
}
}).reduceByKey(
new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
wordCounts.print();
// Start the computation
jssc.start();
jssc.awaitTermination();
}
}

JavaKafkaWordCount.java

package com.spark.test;
import java.util.Arrays;
import java.util.Iterator;
import java.util.Map;
import java.util.HashMap;
import java.util.regex.Pattern;
import scala.Tuple2;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaPairReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import org.apache.spark.streaming.kafka.KafkaUtils;
public class JavaKafkaWordCount{
public static void main(String[] args) throws InterruptedException {
SparkConf sparkConf = new SparkConf().setAppName("JavaKafkaWordCount").setMaster("local[2]");
// Create the context with 2 seconds batch size
JavaStreamingContext jssc = new JavaStreamingContext(sparkConf, new Duration(2000));
int numThreads = Integer.parseInt("2");
Map<String, Integer> topicMap = new HashMap<>();
String[] topics = "test".split(",");
for (String topic: topics) {
topicMap.put(topic, numThreads);
}
JavaPairReceiverInputDStream<String, String> messages =
KafkaUtils.createStream(jssc, "192.168.168.200:2181", "test-group", topicMap);
JavaDStream<String> lines = messages.map(new Function<Tuple2<String, String>, String>() {
@Override
public String call(Tuple2<String, String> tuple2) {
return tuple2._2();
}
});
JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String line) {
return Arrays.asList(line.split(" ")).iterator();
}
});
JavaPairDStream<String, Integer> wordCounts = words.mapToPair(
new PairFunction<String, String, Integer>() {
@Override
public Tuple2<String, Integer> call(String s) {
return new Tuple2<>(s, 1);
}
}).reduceByKey(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer i1, Integer i2) {
return i1 + i2;
}
});
wordCounts.print();
jssc.start();
jssc.awaitTermination();
}
}

JavaLocalWordCount.java

package com.spark.test;
import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
public class JavaLocalWordCount {
public static void main(String[] args) {
/**
* 第一步，创建Spark的配置对象SparkConf，设置Spark程序的运行时的配置信息，
* 例如说通过setMaster来设置程序要链接的Spark集群的Master的URL，
* 如果设置为local，则代表Spark程序在本地运行，特别适合于机器配置较差的情况
*/
SparkConf sparkConf = new SparkConf().setAppName("LocalWordCountByJava").setMaster("local");
/**
* 第二步，创建SparkContext对象
* SparkContext是Spark程序所有功能的唯一入口，无论是采用Scala，java，python，R等都
* 必须有一个SparkContext（不同语言具体类名称不同，如果是Java的话，则为JavaSparkContext）
* 同时还会负责Spark程序在Master注册程序等
* SparkContext是整个Spark应用程序至关重要的一个对象
*/
JavaSparkContext jsc = new JavaSparkContext(sparkConf);//其底层实际上是Scala的SparkContext
/**
* 第三步，根据具体的数据来源（HDFS，HBase，Local，FS，DB，S3等），通过JavaSparkContext来创建JavaRDD
* JavaRDD的创建方式有三种：根据外部数据来源（例如HDFS），
* 根据Scala集合，由其他的RDD操作数据会将RDD划分成一系列Partition，
* 分配到每个Partition的数据属于一个Task处理范畴
*/
JavaRDD<String> lines = jsc.textFile("words.txt");
//如果是Scala，由于SAM转化，所以可以写成val words=lines.flatMap{line =>line.split(" ")}
JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String line) {
return Arrays.asList(line.split(" ")).iterator();
}
});
/**
* 第4步：对初始的JavaRDD进行Transformation级别的处理，例如map，filter等高阶函数等的编程，来进行具体的数据计算
* 第4.1步：在单词拆分的基础上对每个单词实例进行计数为1，也就是word =>(word,1)
*/
JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String word) throws Exception{
return new Tuple2<String, Integer>(word, 1);
}
});
/**
* 统计总次数
*/
JavaPairRDD<String,Integer> wordCount=pairs.reduceByKey(new Function2<Integer,Integer,Integer>()
{
public Integer call(Integer v1,Integer v2)throws Exception
{
return v1+v2;
}
});
wordCount.foreach(new VoidFunction<Tuple2<String,Integer>>(){
public void call(Tuple2<String,Integer> pairs) throws Exception {
System.out.println(pairs._1()+":"+pairs._2());
}
});
jsc.close();
}
}

JavaClusterWordCount.java

package com.spark.test;
import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
public class JavaClusterWordCount {
public static void main(String[] args) {
/**
* 第一步，创建Spark的配置对象SparkConf，设置Spark程序的运行时的配置信息，
* 例如说通过setMaster来设置程序要链接的Spark集群的Master的URL，
* 如果设置为local，则代表Spark程序在本地运行，特别适合于机器配置较差的情况
*/
SparkConf sparkConf = new SparkConf().setAppName("LocalWordCountByJava").setMaster("local");
/**
* 第二步，创建SparkContext对象
* SparkContext是Spark程序所有功能的唯一入口，无论是采用Scala，java，python，R等都
* 必须有一个SparkContext（不同语言具体类名称不同，如果是Java的话，则为JavaSparkContext）
* 同时还会负责Spark程序在Master注册程序等
* SparkContext是整个Spark应用程序至关重要的一个对象
*/
JavaSparkContext jsc = new JavaSparkContext(sparkConf);//其底层实际上是Scala的SparkContext
/**
* 第三步，根据具体的数据来源（HDFS，HBase，Local，FS，DB，S3等），通过JavaSparkContext来创建JavaRDD
* JavaRDD的创建方式有三种：根据外部数据来源（例如HDFS），
* 根据Scala集合，由其他的RDD操作数据会将RDD划分成一系列Partition，
* 分配到每个Partition的数据属于一个Task处理范畴
*/
JavaRDD<String> lines = jsc.textFile("hdfs://192.168.168.200:9000/input/words.txt");
//如果是Scala，由于SAM转化，所以可以写成val words=lines.flatMap{line =>line.split(" ")}
JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String line) {
return Arrays.asList(line.split(" ")).iterator();
}
});
/**
* 第4步：对初始的JavaRDD进行Transformation级别的处理，例如map，filter等高阶函数等的编程，来进行具体的数据计算
* 第4.1步：在单词拆分的基础上对每个单词实例进行计数为1，也就是word =>(word,1)
*/
JavaPairRDD<String, Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
public Tuple2<String, Integer> call(String word) throws Exception{
return new Tuple2<String, Integer>(word, 1);
}
});
/**
* 统计总次数
*/
JavaPairRDD<String,Integer> wordCount=pairs.reduceByKey(new Function2<Integer,Integer,Integer>()
{
public Integer call(Integer v1,Integer v2)throws Exception
{
return v1+v2;
}
});
wordCount.foreach(new VoidFunction<Tuple2<String,Integer>>(){
public void call(Tuple2<String,Integer> pairs) throws Exception {
System.out.println(pairs._1()+":"+pairs._2());
}
});
jsc.close();
}
}

基于Java+SparkStreaming整合kafka编程的更多相关文章

SparkStreaming整合kafka编程
1.下载spark-streaming-kafka插件包由于Linux集群环境我使用spark是spark-2.1.1-bin-hadoop2.7,kafka是kafka_2.11-0.8.2.1, ...
大数据学习day32-----spark12-----1. sparkstreaming（1.1简介，1.2 sparkstreaming入门程序（统计单词个数，updateStageByKey的用法，1.3 SparkStreaming整合Kafka，1.4 SparkStreaming获取KafkaRDD的偏移量，并将偏移量写入kafka中）
1. Spark Streaming 1.1 简介(来源:spark官网介绍) Spark Streaming是Spark Core API的扩展,其是支持可伸缩.高吞吐量.容错的实时数据流处理.Sp ...
基于java的简单Socket编程
1TCP协议与UDP协议 1.1 TCP TCP是(Tranfer Control Protocol)的简称,是一种面向连接的保证可靠传输的协议.通过TCP协议传输 ...
SparkStreaming 整合kafka Demo
这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示你得有zookeeper和kafka 我这里是3台节点主机架构图 ...
大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计
1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic [root@mini3 kafka]# bin/kafka-console-producer. -- ...
scala spark-streaming整合kafka （spark 2.3 kafka 0.10）
Maven组件如下: ) { System.err.println() } StreamingExamples.setStreamingLogLevels() )) ) { System.) } )) ...
Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）
Kafka0.8版本基于receiver接受器去接受kafka topic中的数据(并演示reduceByKeyAndWindow的使用) 依赖 <dependency> <grou ...
【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...

随机推荐

dict的items（）方法于iteritems（）方法的不同
items方法将所有的字典以列表方式返回,其中项在返回时没有特殊的顺序: iteritems方法有相似的作用,但是返回一个迭代器对象.
Java学习笔记29（IO字符流，转换流）
字符流:只能操作文本文件,与字节流的区别是,字节流是按照字节来读取文件,而字符流是按照字符来读取,因此字符流的局限性为文本文件字符输出流:Write类,使用时通过子类每一次写入都要刷新 pac ...
excel idea sql 操作
1.excel concatenate()函数中连接单元格中值拼接sql时,内容超长,把insert into.... values()前面的单独提出来,只在concatenate()中拼接valu ...
Unity 3D光源-Directional平行光/逆光效果，光晕详解、教程
Unity4大光源之平行光本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享. ...
C#线程、前后台线程
C#线程.前后台线程本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享.心创新 ...
lesson4Embedding-fastai
dense layer:mnist识别中,需要十组dense权重矩阵来计算这十个输出内容,conv矩阵每一个元素乘以另一个矩阵的元素并相加,得到一个值,最后加上sigmoid(softmax在二元情况 ...
loading加载的代码
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>& ...
关闭MongoDB服务的几种方法
MongoDB 提供几种关闭服务的命令,具体为以下: 一使用 Crtl+C 关闭 [mongo@redhatB data]$ mongod --dbpath=/database/mongodb/da ...
python简单实现目录对比
[root@localhost python]# cat dircmptest.py #!/usr/bin/python import filecmp path1="/root/python ...
Centos7 安装redis及其入门使用
wget -c http://download.redis.io/releases/redis-3.2.9.tar.gz #下载源码 tar -xvf redis-3.2.9.tar.gz #解压 c ...

基于Java+SparkStreaming整合kafka编程

一、下载依赖jar包

二、创建Java工程

三、实际例子

JavaDirectKafkaWordCount.java

JavaKafkaWordCount.java

JavaLocalWordCount.java

JavaClusterWordCount.java

基于Java+SparkStreaming整合kafka编程的更多相关文章

随机推荐

热门专题